CN104419756B

CN104419756B - 检测哺乳动物基因组三核苷酸重复序列的方法及其应用

Info

Publication number: CN104419756B
Application number: CN201310390859.3A
Authority: CN
Inventors: 胡荣贵; 徐星星; 傅兴; 陈侃; 于涛
Original assignee: Shanghai Institutes for Biological Sciences SIBS of CAS
Current assignee: Center for Excellence in Molecular Cell Science of CAS
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2018-03-02
Anticipated expiration: 2033-08-30
Also published as: CN104419756A

Abstract

本发明涉及检测哺乳动物基因组三核苷酸重复序列的方法及其应用。具体而言，本发明涉及使用C₂H₂锌指蛋白检测哺乳动物基因组的三核苷酸重复序列。本发明还涉及具体的C₂H₂锌指蛋白、其编码序列、含有其编码序列的多核苷酸构建物、以及细胞，以及它们的用途。

Description

检测哺乳动物基因组三核苷酸重复序列的方法及其应用

技术领域

本发明涉及核苷酸检测领域，具体涉及检测哺乳动物基因组三核苷酸重复序列的方法及其应用。

背景技术

三核苷酸重复（trinucleotide repeat，TNR），一种在哺乳动物中普遍存在的三核苷酸序列的扩增，其在蛋白或RNA水平上通过获得或失去性突变而影响到正常基因功能，引发与神经-肌肉系统相关的退行性疾病。三核苷酸重复的这种不稳定性在组织及其传代过程中显现出动态的变化，并且较长的重复序列与较短的相比，更有可能发生重复数增加的突变。同时由于重复序列的长度与疾病的严重性及病人发病的年龄相关，因此大部分三核苷酸重复引起的疾病都呈现出遗传早现的特征。随着发育、表观、增殖甚至环境等因素的变化，三核苷酸重复的不稳定性在个体、组织以及个体不同的年龄阶段之间都表现出复杂的样式。

在人类基因中，三核苷酸重复的扩增引发了一系列的常染色体显性或隐性的疾病紊乱，比如多聚谷氨酰胺疾病（亨廷顿舞蹈症，各种类型的脊髓小脑性共济失调，脊髓延髓肌肉萎缩症等），Friedreich共济失调，脆性X综合症，营养不良性肌强直等。现在有三十种左右的已知疾病与三核苷酸重复相关，其中多聚谷氨酰胺疾病（亨廷顿舞蹈症，各种类型的脊髓小脑性共济失调，脊髓延髓肌肉萎缩症等）与CAG重复相关；Friedreich共济失调与GAA重复相关；脆性X综合症与CGG重复相关；营养不良性肌强直与CTG重复相关；等等。其中，各个疾病的确切发生发展都依赖于对应重复序列在基因中的定位，还有对应致病基因的时空表达方式及其功能。每个重复序列扩增引发相关的疾病都显现出确切的重复片段阈值，也就是当重复片段数目超过该确切的阈值时，可能会在蛋白或RNA水平上发生积累改变，从而引发基因功能的致病改变。

因此，三核苷酸具体重复数目对于相应基因受累疾病的预测、及发病病程、病因等均存在重要的提示作用，检测三核苷酸重复数目对于研究发病机制尤为必要。现在主要的方法通过设计引物覆盖已知具体基因序列，再进行PCR反应扩增出对应基因的重复片段，通过测序手段进行确认。然而对于多基因突变相关的神经系统疾病，包括前面提及的单基因突变疾病，其中三核苷酸重复在多基因水平上所扮演的角色进行研究，则需要对研究手段需要更多的考虑。目前的研究手段中，即使全基因关联研究（GWAS）对于这类多基因相关的疾病中的各个基因，尤其是三核苷酸重复所在基因所起的作用也无法进行具体分析，因此有必要开发出全基因组角度的对三核苷酸重复序列进行系统研究的方法。

在人类基因组中，锌指蛋白是最为常见的DNA结合基序，占到2-3%的百分比（“Initial sequencing and analysis of the human genome”，International HumanGenome Sequencing Consortium,Nature2001,409,860–921）。锌指蛋白涉及到一系列的生物功能，包括发育、分化、抑制肿瘤等等（S.Iuchi和N.Kuldell，Zinc Finger Proteins:From atomic contact to cellular function,Landes Biosciences,Georgetown,TX,2004）。锌指蛋白结构域由二十至三十个氨基酸残基组成，它们形成由锌离子与指环结构上的Cys和His残基结合形成稳定的二级结构。根据与锌离子配位的氨基酸种类和数目，可以将锌指蛋白分成多个种类。其中，经典的C₂H₂锌指蛋白最为常见，在锌离子协助下折叠形成ββα二级结构，而α螺旋上的-1,3和6位氨基酸残基参与锌指蛋白特异地结合靶点DNA序列。并且锌指蛋白大部分由多个C₂H₂锌指蛋白通过串联连接的方式构成。由于C₂H₂类锌指结构域的独立结构及其特异分子识别特性，被逐渐尝试用来设计新锌指蛋白，使其具有新DNA结合能力，通过与不同作用结构域的融合，可能用于各种生物医学应用中。

本发明利用C₂H₂锌指蛋白的可组装及改造后特异识别DNA的特征，对三核苷酸重复序列进行特异性结合，利用生物化学的方法，将三核苷酸重复序列体外富集出，经过高通量测序手段和后续生物信息学分析，从全基因组角度将三核苷酸重复所在的基因位点找出，以寻找未知的参与疾病发生的关键基因，以解决现在仍无法全面了解的症结所在。

发明内容

本发明首先通过凝胶阻滞实验验证了本发明人开发的锌指蛋白和靶标DNA间的特异性相互作用；同时开发出了新的ZIP-seq技术，在体外运用锌指蛋白将基因组DNA中富含特异性重复序列的核酸片段富集出，并且通过高通量测序和生物信息学方法将特定的三核苷酸重复在全基因组中的分布定位出。临床样本结合，可将本发明的工具用来检测临床病例中的三核苷酸重复的分布，从而为临床上已知表型，却对发病机制一无所知的分子机制展开新的视野，并且对可能发现的新基因进行进一步的功能研究。

因此，本发明提供一种基因组特殊序列测序或检测基因组特殊序列的方法，该方法包括：

混合特殊序列结合物和含DNA的样品，和

对富集的DNA或DNA片段进行测序分析。

在一具体实施例中，所述方法包括：

（1）在适合所述特殊序列结合物与所述DNA结合的条件下孵育所述特殊序列结合物与DNA；

（2）分离出结合的特殊序列结合物-DNA；

（3）从步骤（2）获得的特殊序列结合物-DNA分离纯化得到DNA；和

（4）对步骤（3）分离纯化得到的DNA进行测序。

在一具体实施例中，所述方法还包括，将测序信息与基因组信息匹配，获得基因组特殊序列信息。

在一具体实施例中，所述特殊序列为三核苷酸重复序列。

在一具体实施例中，所述特殊序列结合物包括锌指蛋白或转录激活子样效应因子。

在一具体实施例中，所述锌指蛋白是C₂H₂型锌指蛋白。

在一具体实施例中，所述三核苷酸重复序列选自(GCT)n、(CTG)n、(TGC)n、(AGC)n、(GCA)n、(CAG)n、(GGC)n、(GCG)n、(CGG)n、(GCC)n、(CCG)n、（CGC）n、(GAA)n、（AAG）n、（AGA）n、（TTC）n、（TCT）n和（CTT）n，其中，n为大于等于3的整数。

在一具体实施例中，n≤100。

在一具体实施例中，所述锌指蛋白是C2H2型锌指蛋白。

在一具体实施例中，所述锌指蛋白含有SEQ ID NO：1、2或3所示的氨基酸序列。

本发明还提供一种检测哺乳动物基因组三核苷酸重复序列的方法，所述方法包括：

混合锌指蛋白和含DNA的样品，和

对富集的DNA或DNA片段进行测序分析，

从而检测哺乳动物基因组中的三核苷酸重复序列。

在一具体实施例中，所述三核苷酸重复序列选自(GCT)n、(CTG)n、(TGC)n、(AGC)n、(GCA)n、(CAG)n、(GGC)n、(GCG)n、(CGG)n、(GCC)n、(CCG)n、（CGC）n、(GAA)n、（AAG）n、（AGA）n、（TTC）n、（TCT）n和（CTT）n，其中，n≥3。

在一具体实施例中，所述锌指蛋白是C2H2锌指蛋白。

在一具体实施例中，所述锌指蛋白包括SEQ ID NO：1、2或3所示的氨基酸序列。

本发明提供一种分离的多肽，所述多肽选自：

（1）SEQ ID NO：1、2或3所示的氨基酸序列；或

（2）在SEQ ID NO：1、2或3所示的氨基酸序列中经过一个或几个氨基酸插入、缺失或突变而获得的保留了SEQ ID NO：1、2或3的生物学活性的蛋白。

在一具体实施例中，所述插入、缺失或突变发生在SEQ ID NO：1、2和3的识别螺旋氨基酸残基之外。

本发明提供一种分离的多核苷酸，所述多核苷酸选自：

（1）编码权利要求本发明所述多肽的多核苷酸；和

（2）与（1）互补的多核苷酸。

在一具体实施例中，所述多核苷酸选自：SEQ ID NO:11、12和13。

本发明提供一种多核苷酸构建物，其特征在于，所述多核苷酸构建物含有本发明所述的多核苷酸。

在一具体实施例中，所述多核苷酸构建物是一种表达载体。

本发明提供一种细胞，所述细胞含有本发明所述的多肽、多核苷酸和/或多核苷酸构建物。

本发明还涉及本发明所述的多肽、多核苷酸、多核苷酸构建物和/或细胞在基因组三核苷酸重复序列测序或检测基因组三核苷酸重复序列中的应用。

本发明还涉及本发明所述的多肽、多核苷酸、多核苷酸构建物和/或细胞在制备用于疾病的诊断和筛查的药物或试剂中的用途。

在一具体实施例中，所述疾病选自多聚谷氨酰胺疾病、Friedreich共济失调、脆性X综合症和营养不良性肌强直。

在一具体实施例中，所述多聚谷氨酰胺疾病选自亨廷顿舞蹈症、脊髓小脑性共济失调和脊髓延髓肌肉萎缩症等。

附图说明

图1A显示锌指蛋白ZFP_GCT中识别螺旋的具体氨基酸残基，F1、F2、F3分别表示锌指蛋白的识别螺旋氨基酸残基。

图1B显示ZFP_GCT和ZFP_GGC随着浓度的增加，其对标记³²P的靶DNA的凝胶阻滞作用也随之增强，而非靶DNA作为非竞争剂没有对ZFP_GCT的阻滞作用有任何影响，未标记³²P的靶DNA作为竞争剂将阻滞作用最大程度的减弱。

图1C显示ZFP_GCT-flag融合蛋白在细胞核内以点状分布存在。对照是pcDNA3.1-flag空白质粒。

图1D显示一个具体的本发明方法的流程。

图1E显示实施例1所制备得到的锌指蛋白的完整序列，F1、F2、F3分别表示锌指蛋白的识别螺旋氨基酸残基。

图1F显示ZFP_GCT与HTT基因的CTG、TGC和互补链的AGC、GCA、CAG重复序列结合。

图1G显示为ZIP反应洗脱下的DNA进行半定量PCR检测结果。使用覆盖多个CAG重复区域的SCA1引物对（正向引物见SEQ ID NO:14，反向引物见SEQ ID NO:15）证实特异性的富集DNA，而用包括多个CAG重复区域的GAPDH引物对（正向引物见SEQ ID NO:16，反向引物见SEQ ID NO:17）核实非特异性的富集DNA。对富集特异性ZFP_GCT蛋白的DNA进行高通量测序。

图2A显示测序数据计算分析的具体流程。

图2B显示读数（reads）在不同参数下的数目（错配参数和比对次数）。其中a为单态性分类；b为多态性分类。

图2C为分别含有单态性重复序列、多态性重复序列及同时包括两种重复序列的基因数目。

图2D-a显示发现的重复序列在不同基因结构中的具体数目。其中a为单态性分类；b为多态性分类。

图2D-b显示多态性重复序列在人类染色体上的分布。其中，两图中46.7％和43.1％均指基因间序列分布，按逆时针依次为内含子、启动子、CDS、5’UTR、3’UTR和miRNA。

图2E-a显示读数中重复序列的长度分布，其中大部分重复数目均为3。

图2E-b显示在gene ontology分析中，读数功能可见与神经、肌肉系统发育、功能相关的生物过程的富集。

图2F-a显示对于读数中重复序列的数目，与对应测出的读数数目呈现显著的正相关性（Spearman相关系数为0.96）。

图2F-b显示ZIP-seq方法与常规ChIP-seq方法相比，特异性的富集CAG相关重复序列。其中input，RNAPII，MYC，CTCF为其它文章（Lee,B.K.et al.Genome Res22,9-24(2012)）发表的来自MCF-7细胞系的ChIP-seq数据，作为与ZIP-seq进行比较的非特异性组分。

图2F-c显示高通量测序得到的读数在鉴定出的重复序列位点两侧的分布情况。其中黄色区域标记的即是ZIP-seq特异性富集得到的读数，约占总读数数的24.7%；而绿色区域则是非特异性富集的读数，此处作为测序背景信号。

具体实施方式

本发明提供一种基因组特殊序列测序或检测基因组特殊序列的方法，该方法包括：混合特殊序列结合物和含DNA的样品，和对富集的DNA或DNA片段进行测序分析。

作为一具体实例，所述方法包括：

（2）分离出结合的特殊序列结合物-DNA复合物；

（3）从步骤（2）获得的特殊序列结合物-DNA复合物分离纯化得到DNA；和

（4）对步骤（3）分离纯化得到的DNA进行测序。

本文中，特殊序列包括但不限于三核苷酸重复序列，包括(GCT)n、(CTG)n、(TGC)n、(AGC)n、(GCA)n、(CAG)n、(GGC)n、(GCG)n、(CGG)n、(GCC)n、(CCG)n、（CGC）n、(GAA)n、（AAG）n、（AGA）n、（TTC）n、（TCT）n和（CTT）n，，其中，n为大于等于3的整数。在一具体实施例中，n≤100，例如n为3～50、3～30、3～20之间的整数。

本文中，所述特殊序列结合物包括锌指蛋白或转录激活子样效应因子，这类转录激活子样效应因子可以是植物病菌黄单胞菌属的一类蛋白，和锌指蛋白一样具有分子组装识别DNA的特性。现已有很多文献报道，例如，可参见Bogdanove,A.J.&Voytas,D.F.Science333,1843-1846(2011).。

本发明的方法中，在测序获得序列信息之后，还可将序列信息与基因组信息匹配，获得基因组特殊序列信息。可采用现有已知的方法实施所述匹配，例如使用软件Bowtie。

因此，本发明还提供一种检测哺乳动物基因组三核苷酸重复序列的方法，所述方法包括：

混合锌指蛋白和含DNA的样品，和

对富集的DNA或DNA片段进行测序分析，

从而检测哺乳动物基因组中的三核苷酸重复序列。

具体而言，所述方法可包括（1）在适合锌指蛋白与所述DNA结合的条件下孵育锌指蛋白与DNA；（2）分离出结合的锌指蛋白-DNA；（3）从步骤（2）获得的锌指蛋白-DNA分离纯化得到DNA；和（4）对步骤（3）分离纯化得到的DNA进行测序。

采用本发明上述方法可在全基因组中定位出特殊序列的分布。

本发明的锌指蛋白能够特异性识别哺乳动物基因组三核苷酸重复序列。优选的实施例中，本发明的锌指蛋白是C₂H₂锌指蛋白。

作为示例性的C2H2锌指蛋白，本发明列举了SEQ ID NO:1、2和3所示的锌指蛋白，它们分别特异性结合GCT、GGC和GAA三核苷酸重复序列。尤其是，SEQ ID NO：1的锌指蛋白还可特异性结合CTG、TGC、AGC、GCA和CAG。

本发明包括含有SEQ ID NO:1、2或3所示氨基酸序列的锌指蛋白，以及与SEQ IDNO:1、2或3具有相同功能的、它们的变异形式。这些变异形式包括(但并不限于)：若干个(通常1-10个，更佳如1-8个、1-5个、1-3个)氨基酸的缺失、插入和/或取代，以及在C末端和/或N末端添加一个或数个(通常为20个以内，较佳地为10个以内，更佳地为5个以内)氨基酸。例如，在本领域中，用性能相近或相似的氨基酸进行取代时，通常不会改变蛋白质的功能。又比如，在C末端和/或N末端添加一个或数个氨基酸通常也不会改变蛋白质的功能。下表1显示了代表性的氨基酸取代。

表1

氨基酸残基	代表性的取代	优选的取代
			Ala(A)	Val;Leu;Ile	Val
Arg(R)	Lys;Gln;Asn	Lys
			Asn(N)	Gln;His;Lys;Arg	Gln
Asp(D)	Glu	Glu
			Cys(C)	Ser	Ser
Gln(Q)	Asn	Asn
			Glu(E)	Asp	Asp
Gly(G)	Pro;Ala	Ala
			His(H)	Asn;Gln;Lys;Arg	Arg
Ile(I)	Leu;Val;Met;Ala;Phe	Leu
			Leu(L)	Ile;Val;Met;Ala;Phe	Ile
Lys(K)	Arg;Gln;Asn	Arg
			Met(M)	Leu;Phe;Ile	Leu
Phe(F)	Leu;Val;Ile;Ala;Tyr	Leu
			Pro(P)	Ala	Ala
Ser(S)	Thr	Thr
			Thr(T)	Ser	Ser
Trp(W)	Tyr;Phe	Tyr
			Tyr(Y)	Trp;Phe;Thr;Ser	Phe

Val(V)

Ile;Leu;Met;Phe;Ala

Leu

在一个具体实施例中，所述插入、取代和删除发生在所述蛋白的识别螺旋氨基酸残基（即能够结合到DNA大沟中、并特异性识别DNA碱基的α-螺旋结构部分的氨基酸残基）之外。例如，对于SEQ ID NO：1的变异形式，其插入、取代和删除发生在所述F1、F2和F3区域之外。

此外，本领域技术人员公知，在基因克隆操作中，常常需要设计合适的酶切位点，这势必在所表达的蛋白末端引入了一个或多个不相干的残基，而这并不影响目的蛋白的活性。又如为了构建融合蛋白、促进重组蛋白的表达、获得自动分泌到宿主细胞外的重组蛋白、或利于重组蛋白的纯化，常常需要将一些氨基酸添加至重组蛋白的N-末端、C-末端或该蛋白内的其它合适区域内，例如，包括但不限于，适合的接头肽、信号肽、前导肽、末端延伸、谷胱甘肽S-转移酶(GST)、麦芽糖E结合蛋白、蛋白A、如6His或Flag的标签，或Xa因子或凝血酶或肠激酶的蛋白水解酶位点。应理解，这些氨基酸序列的存在不会影响到所得锌指蛋白的活性。因此，本发明也包括在本发明锌指蛋白酶的C末端和/或N末端添加一个或数个氨基酸所得的锌指蛋白，这些锌指蛋白仍具有本文所述锌指蛋白的活性。例如本发明的锌指蛋白可包括或不包括起始的甲硫氨酸残基或6His。

实际上，在本发明公开的内容的基础上，结合本领域已知的锌指蛋白的氨基酸组成及其结构，根据所要检测的三核苷酸重复，本领域技术人员可对锌指蛋白的氨基酸组成进行选择，并采用本文所述的方法筛选出对其所选择的三核苷酸重复具有特异性的锌指蛋白。

本发明也包括编码本发明锌指蛋白的多核苷酸序列。

本发明的多核苷酸可以是DNA形式或RNA形式。DNA形式包括cDNA、基因组DNA或人工合成的DNA。DNA可以是单链的或是双链的。DNA可以是编码链或非编码链。编码成熟多肽的编码区序列可以与SEQ ID NO:1、2、3所示的编码区序列相同或者是简并的变异体。如本文所用，“简并的变异体”在本发明中是指编码具有SEQ ID NO:1、2或3的氨基酸序列，但与SEQ IDNO:1、2或3所示的编码区序列有差别的核酸序列。在一具体实施例中，本发明包括SEQ ID NO:11、12和13所示的多核苷酸序列。

本发明还涉及上述多核苷酸的变异体，其编码与本发明有相同的氨基酸序列的多肽或多肽的片段、类似物和衍生物。这些核苷酸变异体包括取代变异体、缺失变异体和插入变异体。如本领域所知的，等位变异体是一个多核苷酸的替换形式，它可能是一个或多个核苷酸的取代、缺失或插入，但不会从实质上改变其编码的多肽的功能。

本发明还涉及与上述的序列杂交且两个序列之间具有至少50%，较佳地至少70%，更佳地至少80%相同性的多核苷酸。本发明特别涉及在严格条件下与本发明所述多核苷酸可杂交的多核苷酸。在本发明中，“严格条件”是指:(1)在较低离子强度和较高温度下的杂交和洗脱，如0.2×SSC，0.1%SDS，60℃；或(2)杂交时加有变性剂，如50%(v/v)甲酰胺，0.1%小牛血清/0.1%Ficoll，42℃等；或(3)仅在两条序列之间的相同性至少在90%以上，更好是95%以上时才发生杂交。并且，可杂交的多核苷酸编码的多肽与SEQ ID NO:1、2或3所示的多肽有相同的生物学功能和活性。

本发明的核苷酸全长序列或其片段通常可以用PCR扩增法、重组法或人工合成的方法获得。对于PCR扩增法，可根据本发明所公开的有关核苷酸序列，尤其是开放阅读框序列来设计引物，并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板，扩增而得有关序列。当序列较长时，常常需要进行两次或多次PCR扩增，然后再将各次扩增出的片段按正确次序拼接在一起。

一旦获得了有关的序列，就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体，再转入细胞，然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。

此外，还可用人工合成的方法来合成有关序列，尤其是片段长度较短时。

可以通过化学合成来得到编码本发明蛋白(或其片段，或其衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的DNA分子(或如载体)和细胞中。此外，还可通过化学合成将突变引入本发明蛋白序列中。

本发明也涉及包含本发明的多核苷酸的载体，以及用本发明的载体或经基因工程产生的宿主细胞，以及经重组技术产生本发明所述多肽的方法。

通过常规的重组DNA技术(Science，1984；224：1431)，可利用本发明的多聚核苷酸序列来表达或生产重组的本发明锌指蛋白。一般来说有以下步骤：

(1).用本发明的编码本发明锌指蛋白的多核苷酸(或变异体)，或用含有该多核苷酸的重组表达载体转化或转导合适的宿主细胞；

(2).在合适的培养基中培养的宿主细胞；

(3).从培养基或细胞中分离、纯化蛋白质。

本发明中，本发明锌指蛋白的多核苷酸序列可插入到重组表达载体中。术语“重组表达载体”指本领域熟知的细菌质粒、噬菌体、酵母质粒、植物细胞病毒、哺乳动物细胞病毒或其他载体。总之，只要能在宿主体内复制和稳定，任何质粒和载体都可以用。表达载体的一个重要特征是通常含有复制起点、启动子、标记基因和翻译控制元件。

本领域的技术人员熟知的方法能用于构建含本发明锌指蛋白的编码DNA序列和合适的转录/翻译控制信号的表达载体。这些方法包括体外重组DNA技术、DNA合成技术、体内重组技术等。所述的DNA序列可有效连接到表达载体中的适当启动子上，以指导mRNA合成。表达载体还包括翻译起始用的核糖体结合位点和转录终止子。

此外，表达载体优选地包含一个或多个选择性标记基因，以提供用于选择转化的宿主细胞的表型性状，如真核细胞培养用的二氢叶酸还原酶、新霉素抗性以及绿色荧光蛋白(GFP)，或用于大肠杆菌的卡那霉素或氨苄青霉素抗性。

包含上述的适当DNA序列以及适当启动子或者控制序列的载体，可以用于转化适当的宿主细胞，以使其能够表达蛋白质。

宿主细胞可以是原核细胞，如细菌细胞；或是低等真核细胞，如酵母细胞；或是高等真核细胞，如植物细胞。代表性例子有：大肠杆菌，链霉菌属、农杆菌；真菌细胞如酵母；植物细胞等。

本发明的多核苷酸在高等真核细胞中表达时，如果在载体中插入增强子序列时将会使转录得到增强。增强子是DNA的顺式作用因子，通常大约有10到300个碱基对，作用于启动子以增强基因的转录。

本领域一般技术人员都清楚如何选择适当的载体、启动子、增强子和宿主细胞。

用重组DNA转化宿主细胞可用本领域技术人员熟知的常规技术进行。当宿主为原核生物如大肠杆菌时，能吸收DNA的感受态细胞可在指数生长期后收获，用CaCl₂法处理，所用的步骤在本领域众所周知。另一种方法是使用MgCl₂。如果需要，转化也可用电穿孔的方法进行。当宿主是真核生物，可选用如下的DNA转染方法：磷酸钙共沉淀法，常规机械方法如显微注射、电穿孔、脂质体包装等。

获得的转化子可以用常规方法培养，表达本发明的基因所编码的多肽。根据所用的宿主细胞，培养中所用的培养基可选自各种常规培养基。在适于宿主细胞生长的条件下进行培养。当宿主细胞生长到适当的细胞密度后，用合适的方法(如温度转换或化学诱导)诱导选择的启动子，将细胞再培养一段时间。

在上面的方法中的重组多肽可在细胞内、或在细胞膜上表达、或分泌到细胞外。如果需要，可利用其物理的、化学的和其它特性通过各种分离方法分离和纯化重组的蛋白。这些方法是本领域技术人员所熟知的。这些方法的例子包括但并不限于：常规的复性处理、用蛋白沉淀剂处理(盐析方法)、离心、渗透破菌、超处理、超离心、分子筛层析(凝胶过滤)、吸附层析、离子交换层析、高效液相层析(HPLC)和其它各种液相层析技术及这些方法的结合。

因此，本发明也包括上文所述的含有本发明多核苷酸序列的多核苷酸构建物（例如载体，更优选为表达载体），含有本发明多核苷酸序列或多核苷酸构建物的细胞等。

如前所述，本发明的锌指蛋白可用于检测哺乳动物三核苷酸重复序列。检测的方法包括混合锌指蛋白和含DNA的样品，和对富集的DNA进行测序分析，从而检测哺乳动物基因组中的三核苷酸重复序列。

图1D显示了本发明方法的大体流程，包括以下步骤：从培养的细胞/组织提取基因组DNA，获得含DNA的样品；处理（例如，采用超声处理）得到预定平均大小的片段；纯化锌指蛋白；体外DNA-蛋白质结合；用被蛋白G偶联的珠俘获的特异性抗体进行免疫沉淀；DNA洗脱和柱纯化；和测序分析富集的DNA。

可采用常规的方法从细胞或组织提取基因组DNA，制备含基因组DNA的样品。根据实际的测序手段，可适当选择样品中的DNA的长度，例如，对细胞中的基因组DNA进行超声处理，获得所需长度的DNA片段。通常，DNA或DNA片段的长度应满足高通量测序的要求。DNA可来自哺乳动物的各种细胞类型，包括正常细胞或患病细胞。

作为检测的一个例子，通常，可将纯化的锌指蛋白和超声过的基因组DNA在结合缓冲液中室温孵育反应一段时间。作为例子之一，结合缓冲液组成为：15mM Hepes（pH7.9），10μM ZnSO₄，0.1mg/ml BSA，200mM KCl，0.1%NP-40，5mM MgCl₂，10%甘油。孵育后，可将蛋白-DNA反应液与预封闭的偶联anti-c-Myc的Dynabeads在旋转条件下4℃孵育过夜。用来特异性结合锌指蛋白的Dynabeads（Invitrogen,USA）可先用结合缓冲液平衡，再与一抗例如anti-c-Myc(9E10,SantaCruz,USA)偶联。然后，Dynabeads-IgG复合物用500μg/ml酵母tRNA和5mg/ml BSA室温封闭一段时间，然后用结合缓冲液洗两次。之后，可用清洗缓冲液清洗Dynabeads-IgG-protein用清洗缓冲液洗2－5次，每次清洗步骤在室温旋转5－15分钟。作为一个例子，清洗缓冲液配方组分：15mM Hepes（pH7.9），10μM ZnSO₄，0.1mg/ml BSA，400mMKCl，0.5%NP-40，5mM MgCl₂，10%甘油。

免疫沉淀下来的蛋白-DNA用洗脱缓冲液（50mM Tris-Cl pH8.0,10mMEDTA,1%SDS）从珠上洗脱下来。洗脱下的DNA可用经典酚-氯仿抽提纯步骤纯化。

纯化后的DNA连接到接头上，PCR扩增，测序。用Tandem Repeat Finder算法对读数进行筛选。用BEDTools找出三核苷酸重复在基因组的位置分布及相关基因特征。用DAVID进行Gene ontology（GO）分析。

本发明可以用来检测三核苷酸重复在全基因组中的具体分布（基因组上定位），并且用来动态观察个体的三核苷酸重复的多态性，并与其在相关神经系统疾病进行关联分析。使用本发明方法、多肽、多核苷酸、多核苷酸构建物和/或细胞等还能够用来对临床神经系统疾病的患者进行已知可能致病基因的检测和未知受累基因的筛查；同时也能用于孕检中，作为一种排除三核苷酸重复相关神经疾病的有效产前诊断手段。

本发明还能从全基因角度进行全面的检测，因此可以更加系统、可靠地检测出疾病相关的受累基因。将本发明与临床样本相结合，能够发现目前仍未发现的疾病受累基因，从而为进一步研究开发治疗神经系统疾病的药物和治疗方法提供了新靶标。

因此，本发明也包括一种疾病诊断或筛查方法，该方法包括采用本发明前述方法确定三核苷酸重复在全基因组中的具体分布（基因组上定位），并通过与正常个体基因组和/或患病个体基因组相应位置上的所述多核苷酸重复进行比对而判断检测样品所属对象是否患病或是否存在患病风险。

本发明也包括本发明所述多肽、多核苷酸、多核苷酸构建物和/或细胞在制备用于疾病的诊断和筛查的药物或试剂中的用途。

尤其是，本发明所述疾病诊断或筛查方法和/或产品（包括所述多肽、多核苷酸、多核苷酸构建物、细胞、药物或试剂等）可用于孕检，作为一种排除三核苷酸重复相关神经疾病的有效产前诊断手段；或可用于发现目前仍未发现的疾病受累基因；等等。

适用于使用本发明的方法和/或产品进行检测、诊断和/或筛查的疾病包括常染色体显性或隐性的疾病紊乱，尤其是神经系统疾病。这疾病包括但不限于多聚谷氨酰胺疾病（亨廷顿舞蹈症，各种类型的脊髓小脑性共济失调，脊髓延髓肌肉萎缩症等），Friedreich共济失调，脆性X综合症，营养不良性肌强直等。

尤其是，本发明含有SEQ ID NO:1的氨基酸序列的多肽，其编码序列，含有该编码序列的多核苷酸构建物，含有所述多肽、编码序列、和/或多核苷酸构建物的细胞可用于诊断或筛查营养不良性肌强直和多聚谷氨酰胺疾病。本发明含有SEQ ID NO:3的氨基酸序列的多肽，其编码序列，含有该编码序列的多核苷酸构建物，含有所述多肽、编码序列、和/或多核苷酸构建物的细胞可用于诊断或筛查Friedreich共济失调。本发明包括这些多肽其编码序列，含有该编码序列的多核苷酸构建物，含有所述多肽、编码序列、和/或多核苷酸构建物的细胞在制备用于诊断或筛查营养不良性肌强直、多聚谷氨酰胺疾病和/或Friedreich共济失调药剂或试剂中的用途。

本发明也提供一种检测试剂盒，该试剂盒含有本发明所述的多肽，其编码序列，含有该编码序列的多核苷酸构建物等，甚至还可含有所述多肽、编码序列、和/或多核苷酸构建物的细胞。试剂盒还可含有用于实施本发明方法的各种试剂、溶液等。此外，试剂盒还可包括指导本领域技术人员实施本发明所述方法的说明书。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如Sambrook等人，分子克隆：实验室指南(New York：Cold Spring Harbor LaboratoryPress，1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。

除非另行定义，文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外，任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范之用。

材料与方法

质粒构建

参考(Maeder ML,et al.Mol Cell31,294-301(2008))文中的方法，设计锌指蛋白结构模块，分别经全基因合成后，通过长引物策略组装（Carroll D,et al.Nat Protocol1,1329-1341(2006)），用PCR反应进行扩增并加上限制性内切酶位点。ZFP_GCT片段带上三段重复Myc标签经SacII和EcoRI酶切位点插入到表达载体pHUE中，得到pHUE-ZFP_GCT-myc质粒。ZFP_GCT片段带上一段Flag标签经BamHI和XbaI位点插入到pcDNA3.1/hygro(+)载体中。

其中，pHUE-ZFP_GCT-myc质粒的构建所需的引物如下：

SacII-ZFP:5’gctccgcggtggaatggagccctatgcttgtcc3’（SEQ ID NO：4）

SalI-ZFP-r:5’cagtcgacctacagatcttcttcgct3’（SEQ ID NO：5）

用SacII-ZFP和SalI-ZFP-r两个引物PCR扩增组装好的锌指蛋白序列，通过SacII和SalI两个限制性内切酶对pHUE载体和PCR片段分别双酶切，得到切后片段，再通过T4连接酶连接，经测序鉴定正确。

pcDNA3.1-ZFP_GCT-flag质粒的构建所需引物如下：

1.NheI-ZFP-f:5’CAGCTAGCatggagccctatgcttgtcc3’（SEQ ID NO：6）

2.ZFP-tmflag-r：5’cttaaatggattttggtatg3’（SEQ ID NO：7）

3.ZFPtmFlag:5’cataccaaaatccatttaagacagaagcaactagtcggagactacaaggacgatgacga3’（SEQ ID NO：8）

4.Flagcr:5’TCAagagcccttatcgtcatcgtccttgtag3’（SEQ ID NO：9）

5.XhoI-flag-r:5’CGCTCGAGTCAagagcccttatcgtc3’（SEQ ID NO：10）

PCR扩增方法：

先用NheI-ZFP-f和ZFP-tmflag-r引物对组装好的锌指蛋白序列进行扩增；同时将ZFPtmFlag和Flagcr两段引物进行延伸连接；再将前面两个部分的DNA片段进行延伸连接；最后用NheI-ZFP-f和XhoI-flag-r引物进行全长PCR扩增。

通过NheI和XhoI两个限制性内切酶对pcDNA3.1/hygro(+)载体和PCR片段分别双酶切，得到切后片段，再通过T4连接酶连接，经测序鉴定正确。

样本和细胞培养

人胚胎干细胞系HN-4在hES培养基中培养。HeLa细胞系（可从ATCC获得）在DMEM（含10%胎牛血清）中培养。基因组DNA通过传统的酚-氯仿抽提法从培养细胞提取，经由Bioruptor UCD-200超声仪(Diagenode Corp.,Belgium)超声剪切成长度范围为300-1000bp。

蛋白纯化

质粒pHUE-ZFP_GCT-myc转化至Rosetta（DE3）（Novagen，EMD公司）宿主细胞进行蛋白表达。细胞在37℃振荡条件下生长至OD₆₀₀值0.6-0.8，加入1mM IPTG在37℃培养4小时进行蛋白诱导表达。4℃高速离心收集细胞，用细胞裂解缓冲液重悬（25mM Tris-Cl pH8.0，300mM NaCl,10mM咪唑，10mMβ-巯基乙醇，5%(v/v)甘油）。加入溶菌酶至终浓度0.5mg/ml，冰上裂解30分钟，再经由超声进一步裂解。可溶性蛋白通过高速离心获得，与预平衡过的Ni-NTA珠子在4℃孵育2小时。结合后的Ni-NTA珠子用含30mM咪唑的裂解缓冲液洗一遍，最后用含250mM咪唑的裂解缓冲液洗脱得到纯化蛋白。纯化后的锌指蛋白带有Myc标签，通过Western Blot实验检测来进行验证。锌指蛋白的纯度用SDS-PAGE检测，并且通过BCA蛋白检测方法（Pierce,USA）检测纯化蛋白的浓度。

凝胶阻滞

带有三核苷酸重复靶序列和三核苷酸重复非靶序列的寡核苷酸探针由上海生工合成，通过加热再缓慢冷却的方法将互补链退火连接上。退火后的寡核苷酸通过T4聚核苷酸激酶（New England Biolabs,USA）和[γ-³²P]ATP（PerkinElmer,USA）进行5’端³²P标记，并用Micro Bio-spin柱进行纯化（Bio-Rad,USA）。每个反应包括25pM³²P标记的寡核苷酸探针和不同浓度的锌指蛋白，在室温孵育30分钟。反应体系中包含15mM Hepes(pH7.9)，0.1mg/ml BSA，50mM NaCl，10μM ZnSO₄，1mM DTT，5%(v/v)甘油，0.05%(v/v)NP-40，5mMMgCl₂，20μg/ml yeast tRNA。反应混合物用6%还原聚丙烯酰胺凝胶在0.5×TBE缓冲液中进行分离。干胶后，用FLA-8000系统（FujiFilm,Japan）进行检测。

免疫荧光

HeLa细胞铺在放有盖玻片的六孔板中，用Lipofectamine2000（Invitrogen,USA）脂质体转染锌指蛋白质粒。转染24小时后，细胞用4%多聚甲醛固定二十分钟，并用1×PBS洗两遍。细胞然后用0.5%Triton X-100破膜十分钟，再用1×PBS洗两遍。用3%BSA封闭细胞四十分钟，1×PBS洗两遍。用一抗anti-Flag（clone M2,Sigma,USA）室温孵育细胞一个小时，1×PBS洗三遍。然后用FITC偶联的羊抗小鼠IgG二抗避光孵育一个小时。1×PBS洗三遍后，DAPI孵育五分钟，再用1×PBS洗两遍。盖玻片用90%甘油进行封片，荧光显微镜（BX51,Olympus,Japan）下进行观察。

体外DNA免疫沉淀

纯化的锌指蛋白和超声过的基因组DNA在结合缓冲液中室温孵育反应三十分钟。结合缓冲液组成：15mM Hepes（pH7.9），10μM ZnSO₄，0.1mg/mlBSA，200mM KCl，0.1%NP-40，5mM MgCl₂，10%甘油。其中锌指蛋白终浓度0.4μM，超声后基因组DNA终浓度100μg/ml。用来特异性结合锌指蛋白的Dynabeads（Invitrogen,USA）首先用结合缓冲液平衡，再与一抗anti-c-Myc(9E10,SantaCruz,USA)偶联。Dynabeads-IgG复合物用500μg/ml酵母tRNA和0.1mg/ml BSA室温封闭三十分钟，然后用结合缓冲液洗两次。蛋白-DNA反应液与预封闭的偶联anti-c-Myc的Dynabeads在旋转条件下4℃孵育过夜。Dynabeads-IgG-protein用清洗缓冲液洗四次，每次清洗步骤在室温旋转十分钟。清洗缓冲液配方组分：15mM Hepes（pH7.9），10μM ZnSO₄，0.1mg/ml BSA，400mM KCl，0.5%NP-40，5mM MgCl₂，10%glycerol。免疫沉淀下来的蛋白-DNA用洗脱缓冲液（50mM Tris-Cl pH8.0,10mM EDTA,1%SDS）从beads上洗脱下来。洗脱下的DNA用经典酚-氯仿抽提纯步骤纯化。DNA浓度及纯度用ND-1000分光光度计（NanoDrop,USA）定量。

高通量测序及生物信息学分析

纯化后的DNA连接到接头(Illumina,USA)上，PCR扩增18圈，用Solexa1G GenomeAnalyzer进行测序。测序得到的Reads质量进行分析，根据平均质量得分>15(衡量测序得到碱基准确率的指标)将所有的read长度(即测序序列的读长)剪切至75nt。首先，用TandemRepeat Finder（TRF）算法进行重复序列的搜索。TRF的主要技术参数是：match=2，mismatch=7，delta=7，PM=80，PI=10，Minscore=1，MaxPeriod=3。在搜索结果中，进一步筛选至少包括三个重复单元（GCT/AGC，CTG/CAG和TGC/GCA）的重复序列。其中，将两侧6nt内含有重复单元的read进一步剔除（占有约20%），以排除两侧含有重复单元对后续算法分析带来的不便。将选出的reads用Bowtie进行人基因组（hg19）比对。比对步骤分成两步：第一步，全长reads进行比对。所以比对结果允许两次错配，主要参数：“-v2-a--best--strata”。第二步，将上一步未能比对上的read中的串联重复区域进行逐序加入重复单元（至总长度150nt），或逐序减去重复单元（至总长度36nt）以形成一个具有一系列拷贝数的重复区域的子集。将所有的子集合并，再次与人基因组（hg19）比对。允许最多两次错配的结果进行下一步分析。Bowtie主要参数：“-v2-a--best--strata”。比对后的结果保存成BED文件，将重叠的比对序列用BEDTools进行合并。已知基因包括CDS，intron，5’UTR，3’UTR，miRNA的坐标在UCSC GenomeBrowser(http://genome.UCSC.edu)下载后，进行TNR loci的注释。同时，基因起始位点上游的1000bp作为启动子区域。用DAVID进行Gene ontology（GO）分析。

实施例1：重组锌指蛋白与靶DNA的特异性结合

我们根据zif268锌指蛋白设计出特异识别GCT三核苷酸重复序列(GCT)₃的锌指蛋白ZFP_GCT（SEQ ID NO:1），其由三个串联的锌指结构域连接而成，其中识别螺旋的具体氨基酸残基在图1A中列出。我们将该人工设计的重组基因构建在E.coli表达载体上，诱导表达后用NTA-Ni柱纯化。

我们采用相同的方法制备了锌指蛋白ZFP_GGC（SEQ ID NO:2）和ZFP_GAA（SEQ ID NO:3）。

同时，我们将重组基因另构建入真核细胞表达载体中，通过脂质体转染进HeLa细胞，通过免疫荧光的方法来验证该蛋白在真核细胞中的定位情况。通过与DAPI染料的共染，我们可以看到ZFP_GCT-flag融合蛋白在细胞核内以点状分布存在。见图1C。

为了检测纯化蛋白ZFP_GCT与靶序列DNA的特异性结合情况，我们通过EMSA实验（即前述凝胶阻滞实验）来进行验证。其中靶DNA的具体序列为(GCT)₁₂重复片段，同时作为参照的非靶DNA具体序列为(GGC)₁₂重复片段。根据图1B我们可以发现，ZFP_GCT随着浓度的增加，其对标记³²P的靶DNA的凝胶阻滞作用也随之增强。而非靶DNA作为非竞争剂没有对ZFP_GCT的阻滞作用有任何影响，而未标记³²P的靶DNA作为竞争剂将阻滞作用最大程度的减弱。因此，这可以清楚的显示出ZFP_GCT蛋白与靶DNA间的特异性结合作用。

使用ZFP_GGC进行相同的测试，结果显示在图1B的右图中。结果显示，ZFP_GGC特异性地结合到靶DNA上。

将经过超声剪切的基因组DNA与纯化的ZFP_GCT蛋白在体外反应体系中孵育，与磁珠Dynabeads结合的抗c-myc抗体特异性拉下ZFP_GCT-DNA复合物，经过洗脱、纯化后对拉下的DNA进行高通量测序。反应流程显示在图1D中。

实施例2：ZFP_GCT特异结合CTG、TGC、GCT、AGC、GCA和CAG重复序列

我们用EMSA实验、及体外ZIP实验（即前述体外DNA免疫沉淀）证明了ZFP_GCT蛋白和GCT重复的特异性结合。如图1F所示，HTT基因中有多个CAG重复，其中每一个ZFP_GCT蛋白能够结合三个GCT重复，因此HTT基因组DNA能够被多个ZFP_GCT蛋白结合。当ZFP_GCT与含有≥3个重复GCT的序列结合时，移动阅读框，同样能够特异性与CTG、TGC和互补链的AGC、GCA、CAG重复序列结合。同时用半定量PCR的方法对体外ZIP富集的DNA进行检测，如图1G所示，与非特异性富集的GAPDH基因片段相比，特异富集的SCA1基因片段能够显著的被扩增出。

实施例3：测序结果的生物信息学分析

我们设计算法，从测序得到的结果中选择含有CAG/CTG和GCA/GCT重复序列（重复数目≥3）的读数。将读数在允许两个错配的条件下与全基因组进行匹配，比对上的结果定义为单态性重复位点（monomorphic TNR loci）。而对于未匹配上的读数，将其中的重复序列进行逐序加入或减去重复单元（至总长度范围150nt-36nt），以形成一个具有一系列拷贝数的重复区域的子集。将所有的子集合并，再次进行全基因匹配。此时匹配上的读数归类为多态性重复位点（polymorphic TNR loci）。将单态性TNR读数和多态性TNR读数两组数据在基因组单一匹配条件下进行过滤，对过滤出的读数进行基因注释分析，gene ontology分析等。见图2A。

图2B显示的是不同错配参数和不同的比对次数条件下的重复序列所在的读数数目。

图2D-a显示的是重复序列在基因结构中的分布。分成单态性重复序列和多态性重复序列两类。每类中涵括内含子、CDS、5’UTR、3’UTR，基因间序列，启动子，miRNA等。

图2D-b显示的则是多态性重复序列在人类染色体上的分布。

对于读数中重复序列的长度分布可由图2E-a看出，其中大部分重复数目均为3。这可以用三核苷酸重复特定数目对于其易扩增和产生不利于基因组稳定性两方面的折衷来进行解释。

图2E-b为在gene ontology分析中，所有找出的重复位点与神经、肌肉系统发育、功能相关的生物过程的富集。

而对于读数中重复序列单元的拷贝数目，与对应测出的读数数目呈现显著的正相关性（rho=0.96）（见图2F-a）。这则反映了读数中重复序列越长，被ZFP_GCT蛋白识别的可能性越大，被富集的程度也就越多，被测出的读数因此而越多。该正相关性可以从技术角度上被很好的阐释出。

同时对ZIP-seq方法富集三核苷酸重复序列的特异性与常规的ChIP-seq方法进行分析比较，可以发现在富集比例上有明显的提高（大于40倍的提高，见图2F-b）。

由于高通量测序的有限长度，以致不能测通所有的重复区域。因此ZIP-seq方法测序得到的特异性读数中除了前面所述的含有重复序列的以外，仍应会有重复区域两侧的区域被富集出。因此对整个读数在已找出的重复区域邻近的物理分布情况进行研究，在图2F-c中显示出。考虑到测序样品的长度主要在300-1000bp，因此在此将焦点窗口设置在+/-1Knt距离。其中黄色区域即是ZIP-seq特异富集得到的读数分布概况，约占总读数数的24.7%。而绿色区域则是非特异性的读数分布，认为是测序背景信号。分析时可以作为非特异性信号排除。

Claims

1.一种分离的多肽，其特征在于，所述多肽的氨基酸序列如SEQ ID NO：1所示。

2.一种分离的多核苷酸，其特征在于，所述多核苷酸选自：

(1)编码权利要求1所述的多肽的多核苷酸；和

(2)与(1)互补的多核苷酸。

3.如权利要求2所述的多核苷酸，其特征在于，所述多核苷酸的序列如SEQ IDNO:11所示。

4.一种多核苷酸构建物，其特征在于，所述多核苷酸构建物含有权利要求2或3所述的多核苷酸。

5.如权利要求4所述的多核苷酸构建物，其特征在于，所述多核苷酸构建物是一种表达载体。

6.一种细胞，其特征在于，所述细胞含有权利要求1所述的多肽，或权利要求2或3所述的多核苷酸，或权利要求4和5所述的多核苷酸构建物。

7.权利要求1所述的多肽，或权利要求2或3所述的多核苷酸，或权利要求4和5所述的多核苷酸构建物，或权利要求6所述的细胞在制备用于基因组三核苷酸重复序列测序或检测基因组三核苷酸重复序列的试剂中的应用，其中，所述三核苷酸重复序列选自(GCT)n、(CTG)n、(TGC)n、(AGC)n、(GCA)n和(CAG)n，其中，n≥3。

8.权利要求1所述的多肽，或权利要求2或3所述的多核苷酸，或权利要求4和5所述的多核苷酸构建物，或权利要求6所述的细胞在制备用于多聚谷氨酰胺疾病和营养不良性肌强直的诊断和筛查的药物或试剂中的用途。

9.如权利要求8所述的用途，其特征在于，所述多聚谷氨酰胺疾病选自亨廷顿舞蹈症、脊髓小脑性共济失调和脊髓延髓肌肉萎缩症。

10.一种试剂盒，其特征在于，所述试剂盒含有权利要求1所述的多肽、权利要求2或3所述的多核苷酸、权利要求4和5所述的多核苷酸构建物、和/或权利要求6所述的细胞。