CN101395272A

CN101395272A - 获得组织蛋白质组文库的方法

Info

Publication number: CN101395272A
Application number: CNA2007800078589A
Authority: CN
Inventors: 萨蒂亚纳拉亚纳·布卢苏·穆尔蒂
Original assignee: Council of Scientific and Industrial Research CSIR
Current assignee: Council of Scientific and Industrial Research CSIR
Priority date: 2006-01-12
Filing date: 2007-01-11
Publication date: 2009-03-25
Also published as: JP2009523022A; EP1971685A1; ATE440137T1; DE602007002053D1; WO2007080504B1; AU2007204170A1; EP1971685B1; WO2007080504A1

Abstract

本发明涉及对获得组织蛋白质组文库之方法的描述，该文库过表达给定组织中存在的所有转录物(mRNA)。组织中存在的目的转录物被常规克隆并分别过表达以使得能够纯化所表达的蛋白质并用于进行它的结构功能研究。还不存在用于鉴定组织中新的低丰度转录物的方法，特别是对于标本组织样品、卵母细胞和早期胚胎，对此组织可用性也是一个严重的限制。组织中存在的所有转录物的表达，以及总表达蛋白谱与合适对照的比较可用于鉴定组织中存在的所有转录物，特别是新转录物。此新的蛋白质组文库构建方法能够仅仅一次就表达组织中存在的所有转录物，并且使用蛋白质组学和/或其它合适的方法分析所有表达的蛋白质。

Description

获得组织蛋白质组文库的方法

技术领域

本发明涉及获得组织蛋白质组文库的方法，其用于制备“真实”表达的蛋白质的代表性文库，以及用于过表达给定组织中存在的大量转录物(mRNA)。

背景技术

来源于植物任何部分的细胞可再生出完整植物，而脊椎动物细胞缺乏此能力。仅仅新形成的受精卵具有这样的发育形成完整生物体的能力。研究人员试图克隆哺乳动物，但获得的成功率很低，因为通过将生长停滞的成年体细胞核移植进成熟卵母细胞而进行的哺乳动物克隆仍然处于开发阶段，尚不清楚这一过程的基础是什么技术和生物学因素，也不清楚是什么技术和生物学因素对其有限制(Solter，2000)。脊椎动物的繁殖包括多组复杂的分化事件，其导致发育成完全成熟的动物。哺乳动物克隆最近的成功表明生长停滞的正常体细胞核在被移植到去除了核的成熟卵母细胞中之后能够发育成为完全成熟的动物(Campbell etal.，1996和Wilmut et al，1997)。这些研究提示使得已分化的核去分化以及重编程之必要和充分的因素存在于成熟卵母细胞的卵质中，这些研究开启了研究复杂过程(如核重编程、印迹(imprinting)、胚胎分化和发育)的新途径(Coleman，2002和Tsunoda and Kato，2002)。此技术的可能应用包括农场动物的繁殖性克隆和用于自体干细胞移植的治疗性克隆(Campbell et al.，2001和Westhusin et al.，2001)。为了在哺乳动物克隆中达到更高的成功率，必须在分子水平上理解核重编程、胚胎分化和发育。存在于卵母细胞中的母体来源蛋白质和mRNA已被认为协助受精卵重编程、分化和发育，然而这些过程所需的其它因子必需转录自受精卵核(Lieb et al.，1998，Paynton，1998和Ryabova，1994)。在实践中，伦理和实际原因使得只可获得毫克量的哺乳动物卵母细胞和早期胚胎组织，这不足以分离、鉴定和表征存在于这些组织中的潜在目的蛋白。

人类目前主要的健康疾病之一是各种人体组织肿瘤，其导致非受控的细胞分裂。研究人员已竭尽全力从肿瘤所含分子的角度去了解、分类和定义肿瘤状况(Wulfkuhle et al.，2003)，其中使用DNA微阵列和蛋白质组学方法。这些研究的目标是鉴定出可用于肿瘤治疗的诊断、预后和治疗用途的生物标志物(Amatschek et al.，2004和Vaibhav et al.，2005)。来自癌症患者的肿瘤组织样品的可用性非常有限，它们几乎不足以分离/鉴定出作用于这些疾病的目的蛋白质，特别是低丰度蛋白质。由于上述原因，构建了来自可获得组织的cDNA文库，使用微阵列方法分析了这些文库中存在的转录物。微阵列对靶标组织和相关对照组织cDNA文库中存在的转录物水平进行定量，以得到所述靶标组织中表达的重要基因。因为蛋白质是参与大多数生物学过程的功能性分子，所以对参与生理功能的蛋白质直接进行分离和结构-功能研究可能是更有利的。

文献中已报道了构建来自组织的cDNA文库的方法(Ravassard etal.，1997)和通过微阵列分析这些文库中所存在的转录物的方法(Gltnane and Rimm，2004)。这些分析仅仅针对排列在微阵列片上的基因确定了相对于适当对照组织cDNA文库的转录物的相对丰度。这意味着微阵列不能提供对所述微阵列片之外基因的各个转录物(mRNA)特别是未知转录物的身份和丰度。尽管基因是遗传物质的功能性单位，但通过由所述基因的mRNA表达的各种蛋白质实际上负责各种细胞过程。从这一角度来看，直接研究自组织中所存在mRNA翻译的蛋白质可能对于理解它们的细胞功能是更为有利的。生物系统的功能分子是自细胞中所存在mRNA翻译的蛋白质，蛋白质的结构-功能研究是理解参与和调节细胞过程之通路所必需的。可通过常规纯化技术从组织中分离蛋白质，其中一方面组织中具体蛋白质的可获得性以及另一方面组织自身的可获得性不受限制。绝大多数时候，鉴定组织自身中存在的所有蛋白质是非常困难的，这是由于许多重要蛋白质的丰度较低，即使在所述组织的供应不受限制时也是如此。一些重要组织如卵母细胞、早期胚胎、来自患者的癌/组织样品等的可获得量非常有限。因此，这些组织中存在的目的转录物必须被扩增、克隆，表达、鉴定和纯化蛋白，然后才有可能进行它们结构和功能的研究。如果开发出可过表达这些组织中所有转录物的技术，那么至少能够鉴定这些组织中所表达的重要转录物。

目前的后基因组时代为蛋白质组水平上的研究提供了更好的机会。最近在基因的功能性评估上的创新包括微阵列和蛋白质组学技术。蛋白质组学作为一种有力的技术具有提供这样机会的所有潜力。最近被赋予了自动高通量能力的蛋白质组学能够分析/鉴定甚至大量的蛋白质，即使在蛋白质存在水平相当低的情况下也如此。蛋白质组学使用了二维聚丙烯酰胺凝胶电泳(2D PAGE)以解析蛋白库，还使用了单个蛋白质的凝胶内酶消化以产生肽混合物，以及使用了基质辅助激光解吸/电离飞行时间(Matrix Assisted Laser Desorption/Ionization Time of Flight，MALDI-TOF)以产生所述蛋白质的肽质量指纹(Peptide MassFingerprint，PMF)数据。PMF数据作为蛋白质数据库被保存并进行交流，其提供了关于所述组织蛋白质表达谱的信息(Hochstrasser et al.，2002)。2D PAGE是唯一已经验证的可用于定量比较细胞、组织或整个生物体蛋白质谱变化的方法(Nordhoff et al.，2001and Mann et al.，2001)。

由上所述，需要开发用于构建过表达组织中存在的所有转录物之cDNA表达文库的技术，其可用于鉴定在特定生理条件下组织中表达的重要因子。在逆转录为cDNA之后对来自有限量可用组织的mRNA库进行PCR扩增将促进构建总cDNA文库并表达整个文库以分离和鉴定所述文库中存在的重要的和低丰度的转录物。作为简单的微生物，细菌(大肠杆菌(E.coli))广泛用于过表达多种蛋白质(Panda，2003)。细菌是自主分裂的细胞，在合适诱导物的存在下其表达作为质粒克隆于其中的基因。因此我们预期，即使在cDNA库克隆于其中时细菌也将过表达蛋白质，并有助于从文库中所有克隆的转录物过量产生蛋白质。因为高通量蛋白质组学方法已经可用，所以有可能对在这些文库中过表达的大量蛋白质进行研究。在细胞和组织中进行对所有蛋白质的分离和鉴定使得蛋白质组水平上的研究成为可能，这可拓展我们对于生命基本过程所涉及机制的认识。通过克隆和表达整个cDNA文库构建组织蛋白质组文库的现有方法与用于鉴定所述文库中表达的新因子的蛋白质组学分析相结合，给出了这些方法在蛋白质组研究中的潜在应用，特别是当组织可获得性是蛋白质分离/鉴定的重要限制时。

通过将组织的cDNA库克隆到表达载体的所有三个读码框中以获得组织蛋白质组文库的理论基础：

如果我们将任意组织的cDNA库克隆进表达载体(读码框a、b或c)，三分之一所克隆的转录物应该自动的位于正确的表达框内，因为只有三种表达框。通过将相同cDNA库克隆进其余的两种框，剩下的三分之二克隆也可被置于正确的表达框中。通过将克隆到表达载体的读码框a、b和c中的质粒库合并，我们使所有组织转录物以所有蛋白质的正确表达框处于所述文库之中。在诱导之后，这些文库应表达(见后文)所有的所述组织cDNA以产生细胞总蛋白质，因此所述文库被称为“组织蛋白质组文库”。关于未克隆进正确表达读码框(即错误读码框)中的cDNA发生了什么，这是个问题。

一共只有64个三联密码子，其中3个是终止密码子。可算出每21个正常密码子有一个终止密码子，这应为这些密码子在所克隆cDNA的错误表达框中出现的频率。这是因为生物系统确保终止密码子不出现在所述转录物的编码区中。考虑到氨基酸的平均质量是115Da，克隆进错误表达框的转录物应以约21个氨基酸的肽被截断，其应具有(21×115＝)～2.42kDa的质量。即使终止密码子出现的频率降低300％，这些截断肽也只有～9.66kDa的质量。因此组织蛋白质组文库(如上文所述通过将组织cDNA库克隆进表达载体的所有三个读码框来构建)中表达的所有质量值>10kDa的蛋白质在理论上应该是生理蛋白质，而错误框表达的蛋白质应被截断产生<10kDa的肽。蛋白质组学通常利用10-15％二维聚丙烯酰胺凝胶来解析质量范围为10-100kDa的蛋白质，并且只有此范围的蛋白质可在这些凝胶中被解析。因此，组织蛋白质组文库中所有过表达的并且在这些凝胶中解析的蛋白质应该是天然生理蛋白质。

细菌是自主分裂的细胞，其在适当诱导物存在下表达作为质粒克隆于细菌中的转录物。因此，我们预期，即使在cDNA库克隆于其中时细菌也将过表达蛋白质，并帮助过量产生所克隆转录物的整个文库，特别是因为我们仅诱导所述文库几个(2-3)小时。因为细菌表达的蛋白质大小范围很大，并且因为它们没有区分自身转录物和克隆于质粒载体中转录物的能力，所以它们会表达所述蛋白质，而不管克隆于其中的cDNA的大小。由上所述，构建和表达组织蛋白质组文库得到了一种诱人的方法及潜在的策略，以在仅仅一次试验中表达组织的甚至未知蛋白的所有cDNA，这还有助于使用蛋白质组学方法研究所有表达的蛋白质。另外，蛋白质组学具有分析和鉴定蛋白质的能力，而不论所分析的蛋白质是全长的还是截断的。因此，此技术可用于鉴定新蛋白质，即使被克隆并表达的是cDNA的截断产物(参见操作方案)或者从细菌中纯化蛋白质的过程中产生部分降解的10-100kDa蛋白质。

发明内容

构建cDNA文库可实现对组织中存在的所有转录物(mRNA)进行谱分析，并且可通过如微阵列的技术对它们进行分析。但是每个转录物编码一个特定蛋白质，其仅仅在将每个转录物克隆进表达载体的正确框内，在合适宿主(如细菌/酵母)中表达并且进行蛋白纯化之后才可被鉴定和研究。此艰巨任务的第一步是鉴定组织中存在的所有/新的转录物，然而目前还没有明确且一步到位的方法。因为有三个克隆框，并且有一个是正确的表达框，所以克隆cDNA库导致每个转录物被克隆进哪个框、哪个克隆被表达都是不确定的，并且产生了在错误读码框中表达转录物的问题，这导致非生理/假想蛋白的翻译。能自动将组织的所有转录物克隆进正确表达框的方案也还不存在。但是，将组织的所有cDNA转录物克隆进正确读码框并表达以及纯化所表达的蛋白是非常有利的，其使得在通过电泳或色谱技术对它们进行解析之后实现了对它们的鉴定。这些方法还会有助于鉴定稀有组织(如来自患者的临床样品、卵母细胞和早期胚胎)中存在的所有(包括低丰度)的转录物。我们开发了一种新的克隆方法，并解释了在表达载体的所有三种读码框中成功表达组织中存在的所有转录物以得到组织蛋白质组文库的原理。

因此，本发明涉及对获得组织蛋白质组文库新方法的描述，所述文库过表达给定组织中存在的所有转录物(mRNA)。组织中存在的目的转录物分别被常规克隆并过表达，以实现所表达蛋白的纯化以及进行它的结果-功能研究。鉴定组织中存在的新的和低丰度转录物的方法尚不存在，特别是对组织样本、卵母细胞和早期胚胎，对于它们，组织可获得性是个严重限制。表达组织中的所有转录物并将总表达蛋白谱与合适对照进行比较可用于鉴定组织中存在的所有转录物，特别是新转录物。此新的组织蛋白质组文库构建方法能够在仅仅一次试验中表达组织中存在的所有转录物以及利用蛋白质组学和/或其它合适方法对所有表达蛋白质的分析。

附图和附表说明

图1显示所表达蛋白质的pI和质量范围分布。

图2显示所纯化DNA结合蛋白的特征谱。

图3显示4个所鉴定(SSP.No：1405、1955、6601和7303)DNA结合蛋白的MALDI TOF谱。

图4显示所研究蛋白其中4个的ESI MS谱。

表1：25种cDNA(来自NCBI)的数据，利用ExPASy蛋白质组学服务器上可用的翻译和pI/分子量工具进行分析。数据包括cDNA中存在的终止密码子和通过这些分析得到的蛋白质/肽质量。

表2：通过蛋白质组学分析在所述研究中鉴定的DNA结合蛋白的数据。

表3：使用可供利用的序列基序鉴定的蛇卵母细胞DNA结合蛋白以及它们的预测生理功能。

表4：通过PMF分析鉴定的蛋白质身份与利用其ESI MS序列标签通过NCBI BLAST鉴定的蛋白质身份之间的比较。

发明详述

由上所述，我们认为在将组织中存在的cDNA库克隆进表达载体的所有三个框(a、b和c)并且汇集所述克隆之后，可获得组织蛋白质组文库。在这些文库表达之后，会发现所述组织中存在的至少大多数蛋白质的表达并且所有表达的蛋白质应该是生理蛋白质。

1.从组织构建组织蛋白质组文库：可以如上所述从组织出发构建组织蛋白质组文库。可以使用5’和3’特异性引物从分离自组织的少至10-100纳克的总RNA或2-50纳克的mRNA库出发合成总cDNA。可使用5’和3’引物PCR扩增所得的cDNA库，所述引物由连接到5’和3’端的不同且特异性的6碱基(或更多)特异性限制性酶位点(具有已知很少在所述基因中存在的序列)组成(类似于常见生物技术公司所售的文库构建试剂盒中所提供的)。所述cDNA的5’和3’端可被相应的限制性酶进行限制性消化，所得cDNA库可被克隆进表达载体的所有三个框a、b和c。所述载体的选择在下文第3节中有描述。因此，所获得的质粒可以被转化进表达所克隆转录物的合适细菌宿主。另外，早先的CCMB的研究人员开发出了一种盐诱导表达系统(宿主GJ1158，专利号5830690，1998年11月3日)，其以天然可溶形式表达大多数所克隆的转录物(Bhandari andGowrishankar，1997)。此宿主需要仅仅300mM氯化钠(便宜)作为过表达所克隆基因的诱导物。另外，GJ1158过表达所克隆的转录物成为通常可溶的蛋白质。因此，上面所获得的质粒库可通过电穿孔被转化进电感受态GJ1158细菌，所得克隆培养于不含氯化钠的LB(Luria Broth withoutsodium chloride，LBON)琼脂平板上。为获得文库中克隆更好的代表性，应对所克隆进a、b和c的每个质粒库进行多次转化，每个表达框的库分别进行组合。应使用质粒库a、b和c在GJ1158和DH5α细菌中制备文库，以甘油保存物的形式保存在-80℃，因为质粒在表达宿主中不稳定。所述载体中所克隆cDNA的5’端上存在6×His标签编码序列有助于产生所述蛋白质N端的6×His氨基酸标签，其可用于使用NiNTA-琼脂糖色谱纯化文库表达的蛋白质。

2.从现有组织cDNA文库构建组织蛋白质文库的步骤：

作为替代，甚至可以从现有cDNA文库出发构建cDNA文库。可采用有良好代表性的cDNA文库，使用合适限制性酶释放所有cDNA，并将它们连接进表达载体的所有三个读码框(a、b和c)，以获得组织蛋白质组文库。应使用在所有三个读码框中表达克隆cDNA的载体，cDNA应被克隆进所有三个框，并组合所述文库，以获得组织蛋白质组文库。在下文第3节中描述载体的选择。出于此目的，我们必须选择三种(a、b和c)形式都可获得的表达载体，其可在所有三个框中表达克隆转录物。在cDNA文库中，不同限制性位点应存在于所克隆cDNA的5’和3’端。我们还必须寻找两个不同的6(或更多)碱基特异性限制性位点，其存在于所克隆cDNA的5’和3’端之一，相同的位点还必须以5’→3’的方向存在于表达载体中(所述cDNA将克隆于其中)。如果我们用这些限制性酶中的两个消化所述文库，那么会释放所有具有不同且特异性5’和3’端的cDNA。然后，从所述文库释放的cDNA可被克隆到所考虑载体的所有三个形式(a、b和c)中，然后将所述文库加以组合以得到组织蛋白质组文库。

因为使用6(或更多)碱基限制性酶位点(假定仅使用6碱基限制性酶)，相同6碱基序列应该在所述转录物中每4⁶(4 x 4 x 4 x 4 x 4 x 4＝4096)个核苷酸里仅出现一次。组织中存在的大量蛋白质应该在10-100kDa之间，其仅在10-15％2D PAGE中可被良好解析。氨基酸的平均质量为115Da，这些蛋白质应具有最大870个氨基酸。因此它们的cDNA一般应不大于2.61kb。6碱基限制性酶位点在cDNA中的出现频率在4096个核苷酸中仅仅为一次，所以cDNA发生内部截断的机会将相当低。因此，可从良好代表的组织cDNA文库得到“两个6(或更多)碱基限制性酶消化的”cDNA库，可将所述转录物克隆进所有表达载体框的相同限制性位点，以得到组织蛋白质组文库。

3a.用于克隆自现有cDNA文库释放的cDNA之载体的选择，以及自组织开始PCR扩增cDNA的替代方法的选择：

为了克隆自上述步骤1和2获得的cDNA，可使用任何表达载体组，其(a)在多克隆位点(multiple cloning site，MCS)的5’端含有融合蛋白质标签，和(b)在文库诱导后以三种读码框表达所克隆cDNA的三种形式都可获得。在生物技术市场上有数种商品载体可获得。一个例子是pET28。但是并非必需在pET28的所有三个框中克隆cDNA，也不限于用此载体构建组织蛋白质组文库。

PCR扩增自组织获得的cDNA可以两条不同的方式进行。一般地，在PCR扩增方案中，可使用5’和3’特异性引物，所回收的cDNA可被克隆到以所有三种表达框表达克隆转录物的三种表达载体中。作为替代，可利用使得cDNA转录物在5’端偏移一个、两个和三个核苷酸的三个5’特异性引物，以使得自所有PCR反应获得的组合cDNA库可被克隆进任一表达载体中，并且在5’端具有融合蛋白标签，从而所克隆的转录物可自动以所有三个读码框进行表达。

3b.上述组织蛋白质组文库构建过程中可能产生的问题之一些解释和解答：

在大部分使用所述可用方法构建的文库中；cDNA在3’端是完整的，而它们中许多在5’端是不完整的。因此，通过利用这些方法，我们将仅仅克隆所述cDNA的编码区到所述载体的MCS中，因为cDNA的5’非翻译区通常不被克隆。因此cDNA的5’非翻译区既不被克隆也不被表达，造成了蛋白表达框的不确定性。另外，仍然可以通过用于蛋白质鉴定的蛋白质组学成功地分析在表达这些cDNA后产生的N端截断蛋白。

在宣称合成完整cDNA5’端的一些方法中，cDNA的5’非翻译区仍没有扩增超过起始密码子ATG上游10-20个核苷酸。对数十个cDNA的5’非翻译区的研究发现，即使高达30个核苷酸，这些区域通常也不带有终止密码子。因此，即使合成了5’非翻译区的10-20个核苷酸，将其克隆进载体的MCS并表达，这些表达的蛋白质既不会出现由于终止密码子的截断，也不会阻碍基于蛋白质组学的蛋白质鉴定。在所述载体中克隆并表达的cDNA通常产生约30个氨基酸的肽，其包括融合肽标签(His-标签/GST-标签/凝血酶)，其也不会给基于蛋白质组学的蛋白质鉴定造成任何问题。尽管在错误框中表达的肽和截断蛋白质的预期质量只有约2.3kDa(参见前文所述的获得组织蛋白质组文库的理论基础)，但我们固定了10kDa的值以消除以任何可能性产生的这些错误框表达的蛋白质，见上文所述。因此，此方法仍是有效的，并形成了大规模蛋白质表达和鉴定的有价值方案。

4.组织蛋白质组文库的过表达和蛋白质纯化：这些方案必需基于用于构建cDNA文库的载体进行设计。但是，这里给出的是利用GJ1158细菌(对此上文已有过描述)的组织蛋白质组文库的过表达。GJ1158细菌中所述文库(a、b和c)的甘油保存物可一起接种于含卡那霉素的LBON，使其在37℃下以100rpm的恒定速率摇动培养过夜。第二天细菌用含卡那霉素LBON以1:100稀释进行传代培养，直至培养物的600纳米光密度达到0.6-0.8之间。培养物应用300mM氯化诱导3小时，在此期间蛋白质表达到达稳定水平，转移到4℃并保存一个小时以使细胞分裂停滞。在4℃以5000×g离心10分钟；回收细菌沉淀并在-80℃保存，直至用于蛋白纯化。细菌应均匀悬浮于pH8.0含8M尿素的100mM磷酸钠缓冲液中(5毫升缓冲液/克湿重细菌)，室温下通过温和涡旋搅拌细胞60分钟。在室温下以100000×g离心混悬液30分钟，回收澄清裂解液。利用标准方案(QIAexpressionist用户手册，2001)通过NiNTA-琼脂糖柱对澄清裂解液进行色谱分离，以纯化带6×His标签的总蛋白。通过对含10mM EDTA、3mM苯甲脒以及各1mM的PMSF、亮抑酶肽(leupeptin)和抑肽酶(aprotinin)的milliQ水进行彻底透析使纯化的蛋白脱盐，以防止可能的蛋白水解，由于处于变性条件下，大部分蛋白质将会沉淀，然后冻干所述蛋白质悬液。

5.纯化组织总蛋白：可利用标准方法(Vaibhav et al.，2005)纯化组织中存在的总蛋白，这种方法用于组织蛋白质库的2D PAGE分析。

6.从组织蛋白质组文库和组织中所纯化蛋白质的电泳：根据标准方案(Joubert-Caron et al.，1999)，将通过上述NiNTA-琼脂糖柱纯化并冻干的蛋白质溶解于等电聚焦电泳(iso-electrophoresis，IEF)的样品缓冲液中并进行IEF和2D PAGE。标准蛋白质分子量标记物也应在旁边泳道进行电泳。也可在相同IEF和2D PAGE胶中对分离的组织总蛋白质进行电泳。

7.比较所表达的蛋白质组文库和组织纯化的蛋白质以及蛋白质组学分析：成功的比较很大程度上依赖于在文库构建中所使用的方法和文库中全长/截断cDNA的代表性。组织含有许多蛋白质及其所有mRNA。或许因为我们克隆组织总cDNA并全部表达它们，所以来自所述组织的纯化蛋白质和文库表达蛋白质的2D PAGE模式预期是相似的。但是，相比于组织蛋白质谱，在文库表达蛋白质的2D PAGE特征谱中少数蛋白质点可能朝较低质量水平偏移，这是由于所选限制性位点序列存在于这些转录物的中间，在cDNA消化过程中这些转录物发生截断并克隆到所述载体中。由于其N端和C端存在载体序列所翻译的常规和额外氨基酸使得它们质量增加和pI改变，所以文库表达蛋白质也可能从它们在组织蛋白质的2D PAGE上的位置朝边上偏移。可以从文库表达的蛋白胶上分离蛋白质点，使用胰酶进行胶内消化，提取肽并通过MALDI TOF使用标准方案进行分析(Mann et al.，2001)。尽管组织蛋白质组文库中表达的和组织蛋白质的蛋白质点之间的一般性比较是可能的，但是无法期待这两个图样之间的一对一比较。然而，构建自患疾病个体组织的组织蛋白质组文库中表达的蛋白质谱图与正常个体之间的比较是可能的，其在医学生物技术领域具有诱人且现成的应用。

8.可对所述方法造成限制和降低效率的参数：组织中存在的各个mRNA的水平一般认为依赖于它们自身以及它们蛋白质的周转速率。但是，可存在以下mRNA，其可与所述组织中存在的蛋白质因子相结合并由于多种未知原因保持不翻译。因此，组织中存在的各个蛋白质相对比例是否是相同组织中存在的它们对应mRNA的真实比例是未知的。因此，此方法仅仅有助于以翻译蛋白质的方式找出所述组织中存在的所有mRNA。尽管许多mRNA及其对应蛋白质存在于组织中，但是需要独立的研究组织中存在的所鉴定蛋白质的具体mRNA是否确实在组织中被翻译。

下述一些因素是此技术的一些决定性因素，例如(a)代表组织mRNA库的cDNA的忠实性/成比例合成，(b)cDNA连接进表达载体的效率，(c)质粒转化进宿主细菌的效率，(d)产生稳定水平蛋白质表达所需的文库诱导时间，以及(e)细菌中/翻译自文库中克隆的蛋白酶的合成，其可造成过表达蛋白质的降解。在蛋白质纯化的一些关键步骤中，蛋白质降解可造成整个过程的限制，特别是当一些克隆的和过表达的cDNA是未知的强力蛋白酶时。这些限制中的大部分或者与文库构建过程的通常限制有关和/或依赖于所具体使用的组织类型。因此，这些必须针对每种组织标准化，不能被描述为一般性预防措施。

在本发明的一个实施方案中，提供了获得组织蛋白质组文库的方法，其包括如下步骤：

a.从组织中分离总RNA和mRNA，

b.从步骤a获得的mRNA合成总cDNA库，

c.使用引物(含特异性限制性酶位点)扩增回收自步骤b的cDNA，以将这些位点并入所扩增的cDNA中，

d.使用特定限制性酶消化步骤c中获得的PCR扩增cDNA，

e.将步骤d中获得的消化cDNA克隆进表达载体的所有三个5’→3’方向读码框中，

f.将步骤e中获得的质粒库通过电穿孔转化进细菌，培养所述细菌并诱导所述文库进行蛋白质表达，

g.从步骤f中获得的细菌中分离所表达的蛋白质，

h.分析步骤g中获得的总蛋白质的表达水平，

在本发明的另一个实施方案中，其中所述限制性酶是II型限制性酶(如RsaI、SfiI、SgfI、PmeI、NotI等)，其由5(或更多)碱基限制性酶组成，切割后产生粘性末端。

在本发明的另一个实施方案中，总cDNA文库定向克隆进表达载体一个或所有3个可能的表达框中。

在本发明的另一个实施方案中，过表达所述文库以产生总蛋白质文库。

在本发明的另一个实施方案中，所述cDNA库来源于任何生物材料，例如病毒、原核细胞、真核细胞、植物细胞、昆虫细胞和哺乳动物组织、临床组织样品、组织培养细胞、卵母细胞、受精卵、胚胎和纯化的细胞器、组织或整个生物体。

在本发明的又一个实施方案中，将自组织mRNA库逆转录或自现有文库释放的标准化cDNA库克隆进任一表达载体或一组表达载体的一个或所有三个读码框中。

在本发明的又一个实施方案中，表达载体中的cDNA库的克隆/表达与蛋白酶抑制剂或蛋白质稳定剂共克隆和或共表达。

在本发明的又一个实施方案中，制备组织蛋白质组文库，其中它可用于产生“真实”表达蛋白质的代表性文库以及过表达给定组织中存在的大量转录物(mRNA)。

在本发明的又一个实施方案中，所述文库可用于过量产生、电泳分离和蛋白质组分析/鉴定以mRNA存在于组织中的所有蛋白质。

在本发明的又一个实施方案中，所述文库可用于鉴定新蛋白质，即使cDNA的截断产物被克隆和表达，或者在从细菌中纯化蛋白质的过程中产生部分降解的10-100kDa的蛋白质。

在本发明的又一个实施方案中，所述文库可用于鉴定组织中存在的低丰度的和新的蛋白质/转录物。

在本发明的又一个实施方案中，从构建的或市售的或预先制备的cDNA文库用5或更多核苷酸限制性酶限制性消化cDNA。

在本发明的又一个实施方案中，所述文库可用于产生生物分子库，如mRNA/cDNA/蛋白质/肽，以用于研究或如工业、治疗、生物医学、健康相关、生物技术、食品技术和化妆品等其它目的，包括其研究和或应用。

在本发明的又一个实施方案中，其中这些文库可用于分析组织总细胞蛋白质的表达，其选自表达和或分离/鉴定所有表达蛋白质或其任意亚组，所述亚组如膜蛋白、DNA结合蛋白、脂蛋白、核蛋白、转录因子、信号蛋白、核糖体蛋白、线粒体蛋白或任意其它蛋白质亚组；

在本发明的又一个实施方案中，所述文库用于通过以下方法对所表达的蛋白进行分析：色谱法、1D或2D聚丙烯酰胺凝胶电泳(PAGE)、等电聚焦电泳(IEF)、高效液相色谱(HPLC)、基质辅助激光解吸-电离飞行时间(MALDI TOF)、电喷雾电离质谱(Electro Spray Ionization MassSpectrometry，ESI MS)。

在本发明的又一个实施方案中，所述文库可用于鉴定在所述宿主细胞中表达的具有至少10kDa分子量的蛋白质。

以举例说明本发明的方式给出下述实施例，其提供了获得组织蛋白质组文库的基础和方法，因此它们不应被解释为限制本发明的范围。

实施例1

从NCBI数据库收集数个蛋白质的mRNA，使用ExPASy蛋白质组学服务器上可用的mRNA/DNA→蛋白质翻译工具以所有5’→3’方向读码框翻译它们；25个mRNA的数据、其中发现的终止密码子以及计算的蛋白质/肽质量总结于表1中。

我们收集了100个数据库报道蛋白质(大小范围从10至100kDa)的mRNA序列，使用ExPASy蛋白质组学服务器上可用的翻译工具将它们在所有三个5’→3’方向读码框中翻译，我们观察到只有一个框得到全长蛋白质。另外，在其余两个错误读码框中终止密码子以平均16至24个氨基酸的频率出现。这意味着这些错误的表达载体读码框中cDNA的克隆和表达产生大小范围在16-24个氨基酸之间或1.84-2.76kDa之间的截断肽。这完全与上文所述的“通过克隆组织cDNA库到表达载体的所有三个读码框中，获得所述组织蛋白质组文库的理论基础”相一致。

当cDNA克隆于错误的表达载体读码框中并且表达蛋白时，会产生直至第一个终止密码子的多肽然后终止翻译。因为在随机克隆和表达的cDNA文库中产生的不想要的假设(非天然)蛋白和肽是获得组织蛋白质组文库中的主要瓶颈，所以我们决定分析一组收集自NCBI的mRNA(预期产生质量范围在10-100kDa的蛋白质)，以得到在错误的表达读码框中克隆和表达后可由它们产生的所有肽。关于由所述cDNA产生的第一个多肽之质量的信息对评估这些错误框克隆的cDNA在这些条件下是否产生假设蛋白质/肽是必要且充分的。但是，为了获得有关质量值>10kDa的多肽的数量以及克隆于表达载体错误读码框中转录物所产生的最大多肽的质量之信息，我们也计算了来自一组mRNA的此信息并在表1中给出。有时组织蛋白质组文库中克隆的转录物可只具有部分(5’截断的)cDNA。相比全长cDNA所产生的多肽，它们会产生不同组的翻译终止多肽(由于克隆和表达cDNA的错误框中间的终止密码子)。因为我们将所有>10kDa的多肽(参见第5页第2段有关为何固定于此的解释)作为人为切断值，这将验证在所述组织蛋白质组文库中，错误表达载体读码框中全长和5’截断cDNA的克隆和表达。

在上述25个mRNA中发现的在错误读码框中翻译的质量值>10kDa的全部肽中，在因终止密码子形成的总共1021个肽中有24个，算出其相对丰度仅为2.35％，而每个蛋白质的平均肽数目约为20[1021/(2×25)＝20]。因此，这些肽可以以五个蛋白质中一个的几率出现，并且这些肽出现在翻译cDNA开始时的可能应该非常低。因为在“错误框表达cDNA”中的蛋白质合成在第一个终止密码子处终止，所以合成质量值>10kDa的截断肽的可能会非常低。另外，因为几个物种如大肠杆菌(E.coli)、小鼠(Musmusculus)、人(Homo sapiens)、果蝇(Drosophilae)、线虫(C.elegance)的基因组测序已经完成并且它们的基因/蛋白质数据库可用，即使在总文库表达后产生少量这样的肽，它们也可作为来自这些物种的假设蛋白被检测到。由上所述，从不正确(错误)表达读码框中克隆的转录物表达的极少数大肽不会成为获得和表达组织蛋白质组文库的限制/障碍。我们分析了回收自NCBI数据库的蛋白质的100个mRNA；但是，我们仅给出了来自25个mRNA(表1)的数据，因为这些数据与来自所有100个mRNA的总数据相一致。

表1：

实施例1支持的数据：

数个蛋白质cDNA收集自NCBI数据库，使用ExPASy蛋白质组学服务器上可用的DNA→蛋白质翻译工具以所有5’→3’方向读码框翻译它们。25个cDNA的数据、其中发现的终止密码子以及计算的蛋白质/肽质量总结于表1中：

在表1所示数据中，连续多个终止密码子被认为是单个终止密码子。相同数目的终止密码子和肽提示在读码框序列开始处存在终止密码子。表1中给出的第一个肽和最大肽的质量相同表示所述第一个就是最大肽。仅仅为了提供更多机会出现较大的肽以及它们在错误表达框转录物中的频率，当在cDNA起始处有终止密码子时我们考虑下一个紧接着的肽。

实施例2

采用来自上文“实施例1”的线索，我们进行了有趣的实验；使用下文“实施例3”中所述的“材料和方法”，我们合成了来自纯化的蛇卵母细胞mRNA的总cDNA，将所回收的cDNA库克隆进pT7T3D定向克隆载体。我们通过电穿孔将质粒库转化进盐诱导型GJ1158细菌并表达总转录物文库。约33％所克隆的cDNA将处于正确的表达载体读码框中，会产生真实蛋白质，而其它克隆在错误读码框中的cDNA会产生截断肽。如果表达之后细菌能够从这样的文库产生总蛋白质文库，我们预期所表达的蛋白质等电点(pI)和质量(kDa)范围应类似于细菌蛋白质。在12％2D PAGE上进行了对“未诱导”和“诱导”文库总蛋白质的分析(图1A和1B)，并比较蛋白质谱。图1中“诱导”和“未诱导”中蛋白质点模式的比较清楚表明，所表达蛋白质在pI和质量范围内的分布(在2D蛋白质模式中由紫色圈表示)与其余(大肠杆菌)蛋白质非常好地匹配。这清楚地证明了当克隆于表达载体中并一起进行诱导时，细菌能够表达蛋白质文库。另外细菌不显示出区分它们自身的和所克隆的转录物蛋白质，在蛋白质表达上不表现出尺寸偏好。但是，我们非常明白，我们的文库仅将三分之一的克隆和表达于所述文库正确读码表达框的转录物表达成为全长蛋白质，从上述结果出发，我们预测总cDNA文库能够以所有三种可能的表达载体框定向克隆进表达载体，并且可过表达这些文库以产生总蛋白质文库，我们称之为“组织蛋白质组文库”。

当我们克隆和表达单个cDNA到正确的表达载体框中并且在这样的凝胶中解析200微克的诱导总蛋白质时，预期得到表达自所克隆cDNA的大量单蛋白质点，其数量约为在所述凝胶中所解析的总蛋白质的30-40％。但是，当克隆和表达cDNA文库并解析200微克蛋白质时，仅有约10-13％(三分之一)在正确框中表达的重组蛋白质以多蛋白质点的形式出现，而剩余20-27％的错误框表达蛋白质以肽结束并且由于它们质量小而跑出了所述胶。在“未诱导”和“诱导”胶中存在少数强度相同的主要蛋白质点(图1)，这与我们在这些凝胶中解析相同量的蛋白质是一致的。这清楚的证明了细菌能够表达cDNA文库，蛇卵母细胞cDNA表达文库能够表达在正确表达框中克隆的全范围的蛋白质。

表2

通过蛋白质组学分析鉴定的DNA结合蛋白质

列1：序列号；2：依次为SSP号、pI和蛋白质质量(kDa)；3：依次为所用搜索工具、蛋白质/Estd Z得分；4：依次是蛋白质、pI和质量(kDa)、物种和基因身份；以及列5：序列和肽的匹配率％。

注释：

有关来自Mascot最佳得分的蛋白质质量、pI和物种的线索用于Profound

#：有关来自Mascot最佳得分的蛋白质质量和pI的线索用于Profound

Φ：有关来自Mascot最佳得分的物种的线索用于Profound

(＊)：表示蛋白质/Estd Z得分略微低于“显著得分水平”

实施例3

在细菌能够表达蛋白质文库的上述发现的鼓励下，我们尝试并成功地使用蛋白质组学方法从蛇卵母细胞cDNA文库表达的蛋白质中解析一组稀有且低丰度蛋白质(DNA结合蛋白)然后用蛋白质组学方法对它们进行表征。我们预期此实践应构成成功开发“组织蛋白质组文库”的证据和基础。在蛇卵母细胞cDNA文库中表达的DNA结合蛋白仅仅构成所述组织蛋白质的一小部分。因为这些是低丰度蛋白质，我们肯定需要大量的组织表达蛋白质。我们培养了90升每批10升的细菌培养物，诱导所述培养物以在合适的培养物生长水平(光密度)上进行蛋白质表达。收获细菌，在存在蛋白酶抑制剂的适当天然(native)缓冲液条件下匀浆，收集可溶性蛋白。不溶性蛋白溶解于变性溶剂中，重折叠并以可溶性形式几乎定量回收全部总蛋白。将总可溶性蛋白通过蛇DNA-Sepharose柱进行色谱分离，以分离DNA结合蛋白。我们在12％2D PAGE上解析回收的DNA结合蛋白，将蛋白点用蛋白质组学方法分析以鉴定蛋白质。有意思的是，我们回收到几种蛇DNA结合蛋白。另外，所分离的DNA结合蛋白占450毫克总文库蛋白质中的1.80毫克，经计算即总文库蛋白质的0.40％。所回收的DNA结合蛋白的量与从组织蛋白质中预期回收DNA结合蛋白相一致。下文给出了在我们关于使用所述蛋白质组学方法克隆蛇卵母细胞总cDNA库、过表达总蛋白质文库、纯化所述DNA结合蛋白以及对它们的鉴定之研究中所使用的方法以及获得的结果。

表3

使用可用序列基序鉴定的蛇卵母细胞DNA结合蛋白及其预测生理功能

在构建蛇卵母细胞cDNA文库、表达和从文库表达蛋白分离DNA结合蛋白中所使用的方法：

材料：电泳化学品-丙烯酰胺、甲叉双丙烯酰胺、TEMED、考马斯蓝R-250、2-巯基乙醇、二硫苏糖醇和试剂如trizol、尿素、盐酸胍和SDS获得自Sigma Chemical Company，St.Louis，MO，(USA)。蛋白酶抑制剂-PMSF、亮抑酶肽、苯甲脒和抑肽酶购自Boehringer Mannheim，Germany。CNBr-活化的Sepharose、TimeSaver cDNA合成试剂盒、定向克隆工具盒和PT7T3D克隆载体购自Pharmacia Biotech(Sweden)。即用型等电聚焦电泳胶条购自BIO-RAD Laboratories(USA)。Dyna珠mRNA纯化试剂盒购自Dynal，USA。其它分析级试剂购自本地供应商，Qualigens，E.Merck和BDH。

方法

a.收集蛇卵母细胞：卵母细胞收集自处于繁殖期的滑鼠蛇(Ptyasmucosus)，速冻在液氮中，保存于-80℃待用。

b.构建蛇卵母细胞cDNA文库：按照Trizol提取方法(Chomczynskiand Sacchi，1987)自蛇卵母细胞中分离总RNA。简言之，在10毫升含0.2毫升/毫升氯仿的市售Trizol试剂中匀浆1克卵母细胞组织。氯仿有效地变性蛋白质并产生无蛋白质污染的RNA。使用异丙醇(0.5毫升/毫升)将RNA从水相中沉淀出来，通过反复用70％乙醇洗使其脱盐。使用Dyna珠mRNA纯化系统将多聚腺苷酸化(poly-A)RNA(mRNA)从总RNA中纯化出来。使用Time-saver cDNA合成试剂盒将poly-A RNA转变为cDNA，将纯化的由0.5-4.5kb大小组成的cDNA片段连接进PT7T3D噬菌粒定向克隆载体的EcoRI和NotI限制性位点之间，其按照使用说明书进行。将所得重组噬菌粒通过电穿孔转化进GJ1158，一种盐诱导型大肠杆菌菌株(Bhandari and Gowrishankar，1997)。分离的mRNA是完好的，cDNA合成得到0.5-4.5kb之间的转录物，其预期产生宽范围分子量的蛋白质。

c.诱导蛇卵母细胞cDNA文库：将所述文库的甘油保存物和对照GJ1158细菌接种到含氨苄青霉素的LBON(Luria Broth，不含NaCl)培养基中，使之在37℃下以100rpm恒定转速摇动培养过夜。第二天，细菌在含氨苄青霉素的LBON中1:100稀释进行传代培养，直至培养物的600纳米光密度(optical density，OD)达到约0.6-0.8之间(Bhandari andGowrishankar，1997)。培养物应用300mM氯化钠诱导3小时，未诱导的培养物也在相同条件下培养3小时。将所述培养物转移到4℃并保存一个小时以使细胞分裂停滞。然后，在4℃以5000×g离心10分钟；回收细菌沉淀并在-80℃保存，直至用于蛋白纯化。

d.从细菌沉淀提取蛋白质：将来自2升培养物的细菌沉淀(12克)均匀悬浮于40毫升的含0.1％ TritonX-100、100微克/毫升溶菌酶、3mM苯甲脒和各1mM的EDTA、PMSF、抑肽酶和亮抑酶肽的50mM Tris-HCl，pH8.0中，在室温孵育一小时。所述悬液在4℃剧烈超声以裂解细菌、剪切细菌DNA并降低溶液粘度，通过在4℃以10000×g离心30分钟回收蛋白质。通过以下步骤使沉淀经受蛋白复性(Anderson et al.，1999)：溶解于20毫升含8M盐酸胍+1mM DTT的50mM的Tris-HCl，pH8.0，然后对含5mM半胱氨酸、15mM胱氨酸和2M尿素的50mM Tris-HCl(pH8.0)透析12小时，之后用除了不含尿素之外相同的介质透析4小时。如上所述离心透析的蛋白质，不溶蛋白经受多于一轮的复性过程。复性蛋白的上清与早先收集的可溶蛋白质合并，通过蛇DNA-Sepharose进行色谱。

e.DNA-Sepharose亲和介质的制备：使用标准方法制备DNA-Sepharose，其按照使用方案将Hinf1消化的雌蛇(Ptyas mucosus)基因组DNA偶联到CNBr活化的Sepharose(Pharmacia)。使用标准方案(Kodanaga and Tjian，1986)从雌蛇的肾或肝分离高分子量基因组DNA，每毫升Sepharose使用100微克DNA用于偶联。

f.DNA结合蛋白的亲和纯化：从2升细菌培养物中提取并汇集的总蛋白质通过25毫升蛇DNA-Sepharose柱进行色谱分离。未结合蛋白质循环通过柱2-3次以提供较大的机会结合蛇蛋白质并增加所述结合蛋白质的回收。用50倍柱体积的含1mM EDTA、1mM DTT和100mM NaCl的50mM Tris-HCl(pH8.0)溶液将松散结合的蛋白质从所述柱上洗脱下来，然后通过再用50倍柱体积的除了用300mM NaCl代替100mM之外其余相同的缓冲液洗所述柱。用含1M NaCl的相同缓冲液将DNA结合蛋白从柱上洗脱下来。用通过10-kDa截断分子量值膜的Amicon滤器过滤浓缩所洗脱的蛋白质，然后进行更换数次的每次100倍体积的透析，其中使用含3mM苯甲脒和各1mM的PMSF、EDTA、抑肽酶和亮抑酶肽的50mM的Tris-HCl(pH8.0)。使用Speed-vac浓缩器浓缩所透析的蛋白质，并溶解于相同样品缓冲液中以进行IEF。

g.1D和2D PAGE、凝胶成像和图像分析：在12.5％ SDS聚丙烯酰胺凝胶中使用标准方案(Laemmli，1970)进行一维SDS PAGE。标准蛋白质标记物也在邻近泳道进行电泳，以评估所解析蛋白质的分子量。根据标准方案(Joubert-Carton et al.，1999&O’Farrell，1975)进行2D PAGE。第一维是IEF，在IPG-胶条(11厘米，pH5-8)上进行，其得自BIO-RAD。我们利用这些IPG胶条，因为它们在初步的2D PAGE实验中提供了所分离DNA结合蛋白令人满意的解析度。第二维，SDS PAGE由12％聚丙烯酰胺分离胶和5％的间隔胶(spacer gel)组成，在标准BIO-RAD电泳装置中进行。纯化的DNA结合蛋白溶解于IEF样品缓冲液[40mM Tris，pH：10，7M尿素，2M硫脲，和1％C7BzO{3-(4-庚基)-苯基-3-羟基-丙基-二甲基铵-丙磺酸盐}]中，Bradford反应后进行分光光度法估计。用预先与200微克DNA结合蛋白相混合的再水化缓冲液(8M尿素，2％CHAPS，50mMDTT和0.2％载体两性电解质pH3-10；BIO-RAD)对每个IPG胶条进行再水化。在Protean IEF盒(BIO-RAD)中使用终电压10000，20℃，总60000Vh进行IEF。IEF之后，IPG胶条保存于-80℃直至用于第二维。第一维电泳的IPG胶条在室温含2.5mM DTT和2.3％(w/v)SDS的125mMTris-HCl(pH6.8)溶液中孵育15分钟，用1％相同缓冲液中熔化的琼脂糖封住间隔胶的顶部。以恒定电流40mA进行2D PAGE胶，直至分层的溴酚蓝染料到达凝胶底部。通过用5:1:4的甲醇:乙酸:Milli-Q水中0.2％考马斯亮蓝R-250对SDS和2D PAGE进行常规染色过夜，然后在相同溶剂中脱色。使用Fluor S Multiimager(BIO-RAD)和可见光源获得2D凝胶图像。使用PD Quest图像分析软件(BIO-RAD)进行图像分析。所有图像在相同的设置下拍摄，使用凝胶不同部分的3至4个大点固定座标。并且针对染色的小变化使用蛋白质点的总光密度对凝胶进行标准化。分配SSP(Standard Spot，标准点)号给蛋白质点，手动切下不同凝胶的蛋白质点，根据它们的SSP号汇集在一起。

h.制备样品以进行MALDI-TOF分析：我们依次进行凝胶电泳，汇集来自所有凝胶的每个蛋白质的凝胶点，用胰酶进行消化。使用标准方案制备MALDI TOF分析的样品。简言之，在50mM碳酸氢铵中洗考马斯蓝染色的含蛋白质点的凝胶切块，短暂的孵育于相同缓冲液中。然后又用1：1的50mM碳酸氢铵和50％乙腈洗凝胶切块。凝胶切块在乙腈中脱水，在20mM碳酸氢铵中重新溶胀，其含有所需量的胰酶。使用测序级牛胰酶(Sigma)在37℃下进行过夜胶内消化，所述胰酶无糜蛋白酶活性(chymotryptic activity)，终浓度为1:10至1:30(胰酶：蛋白质)。用50％乙腈中的5％三氟乙酸(Trifloroacetic acid，TFA)提取来自胶内消化物的肽两次，汇集所提取的肽，Speed-Vac浓缩并重构于8微升含50％乙腈的0.1％TFA，使用ZipTip C18柱(Millipore，USA)脱盐。纯化的肽(0.1％TFA和50％乙腈中)沉积在MALDI TOF板上，使之风干，用α-氰基-4-羟基肉桂酸(10毫克/毫升，在相同介质中制备)基质在其上形成层，风干，用于MALDI TOF分析。

i.MALDI TOF研究和谱图分析：我们使用Voyager型：DE STRMALDI TOF质谱仪(PerSeptive Biosystems，Framingham，MA，USA)，使用延时引出以反射模式记录MALDI质谱图，使用以下参数进行每个测量：20kV加速电压、72％栅极电压、175-220ns延时时间以及750的低质量门。从100个激光轰击(laser shots)累计谱图。使用外部质量标准(Calmix1和2；Applied Biosystems)进行肽质量校准。使用标准步骤使MALDI TOF谱图接受基线校正、噪音去除和峰检测。我们消除了数据中与胰酶、角蛋白和校准混合物相关的肽质量，得到最终的肽质量列表。对于大多数蛋白质，对于所述蛋白质的每个10-kDa的部分我们平均回收了约10-15个肽。

j.PMF搜索分析：蛇蛋白质数据库目前仍是不可用的。因为我们预期蛇卵母细胞蛋白质的PMF搜索应鉴定出其它数据库中存在的同源蛋白质。因此，我们使用1-2个漏切(missed cleavage)、“甲硫氨酸的部分氧化”和200ppm质量偏差以“全分类(All Taxonomy)”模式启动PMF搜索。可能是由于蛇PMF数据库的不可用，对于大多数蛋白质质量偏差必须增加到300-400ppm才能得到确定的蛋白质鉴定。但是，在Mascot均方根(root mean square，RMS)ppm误差(用以鉴定蛋白质的质量数据组使用的实际误差)改变仅有65-250ppm。最近进行的马拉松式研究(Danielet al.，2004)比较了多种PMF搜索参数，认为400ppm的质量偏差对于得到有意义的蛋白质鉴定是必需的，其证实了在我们的PMF搜索中使用的质量偏差参数在合理的限制之内。由于可用NCBInr数据库的范围和大小以及蛇蛋白质数据库的不可用，我们始终使用NCBInr以及Mascot和Profound搜索工具以进行我们的PMF分析。使用200ppm质量偏差起始PMF搜索，然后增加到300-400ppm，无论使用显著蛋白质得分鉴定蛋白质是否必要。基于蛋白质质量值和pI，我们使用1-2个漏切，对于每个10kDa质量的蛋白质允许1个漏切。偏碱性的蛋白质含有更高含量的碱性氨基酸-精氨酸/赖氨酸，胰酶在紧挨着它们的位置切割多肽，蛋白水解的限制需要对于这些蛋白质允许更多的漏切。

搜索参数中允许的质量和pI范围显然影响通过Profound所鉴定蛋白质的Estd Z得分。在不同的分类中具有相同功能的蛋白质应该是同源的，但是它们的质量和pI值经常可明显不同。我们预期需要根据其它数据库中的同源蛋白质进行鉴定的蛇蛋白质数据库的不可获得性有可能影响我们的PMF搜索结果，并且仅仅提供较低的蛋白质/Estd Z得分。在所有PMF搜索中，对于实验观察到的蛋白质pI和质量我们允许1个单位的pI和5kDa质量。我们通常寻找具有与实验所观察到的蛋白质质量和pI值最接近的蛋白质身份(id)。在几个实例中，我们得到具有与所研究的蛇卵母细胞蛋白质的质量和pI值足够相近的蛋白质身份。但是，在一少部分实例中对于得到唯一的具有最佳蛋白质/Estd Z得分的身份具有偏差似乎是必需的，因为它们自身是由Mascot和Profound所鉴定的最佳匹配。在一些实例中，Profound鉴定的蛋白质不同于由具有可接受得分的Mascot所鉴定的蛋白质，尽管它也鉴定出具有高蛋白质得分的Mascot鉴定的蛋白质。在这些实例中，我们考虑和报道了所有通过这些分析所鉴定的具有可接受得分的蛋白质。在许多情况下，我们最初使用Mascot，得到具有合理的高蛋白质得分(50/76至65/76)的蛋白质质量、pI和物种，然后在Profound中使用此信息，以鉴定在数据中显示的具有明显可接受Estd z得分的蛋白质。蛋白质的PMF搜索使用大肠杆菌替代“所有分类”，对于那些事实上由“所有分类”中的搜索(见结果)鉴定为大肠杆菌蛋白质的蛋白质，得到一致的蛋白质/Estd Z得分，而其它的只得到非常低的蛋白质得分。这证明了我们所回收的蛋白质不来自大肠杆菌，具体来说这是因为大肠杆菌基因组已经被完全测序，在数据库中所有的大肠杆菌蛋白质都是可用的。

k.电喷雾电离质谱(ESI MS)：少数蛋白质在消化后产生足以进行ESIMS分析的肽。因此，我们对这些被消化的蛋白质进行ESI MS，以得到它们的内部序列标签。使用来自PE Sciex(Toronto，Canada)的带有纳米喷雾源的QSTAR Pulsar(ESI-Q-TOF)获得MS/MS片段化谱。在1000V喷雾电压下获得TOF MS。多个带电片段接受MS/MS，其碰撞能量范围为30-50eV。

l.NCBI BLAST分析：ESI MS研究提供给我们蛋白质的仅仅10-15个氨基酸的序列标签。我们使用NCBI蛋白质BLAST的“搜索短的、接近完全匹配”工具进行序列标签的BLAST。因为ESI MS不能区分氨基酸“L和I”以及“K和Q”，我们必须以这些氨基酸所有可能的组合进行这些BLAST搜索。在BLAST鉴定的具有最高得分的蛋白质中，我们寻找早先同时被Mascot和Profound PMF搜索鉴定的蛋白质，并报告结果。

结果：

在此研究中，总RNA分离自蛇卵母细胞，mRNA纯化并转变为cDNA，如“方法”部分中所述。分离的mRNA是完好的，cDNA合成得到0.5-4.5kb之间的转录物，其预期产生大小范围很大的蛋白质。因此我们的文库构建步骤是正确的，文库应表达宽分子量范围的蛋白质。早先，通过3小时的诱导，蛋白质在GJ1158细菌中的过表达显示为稳定期(Bhandari andGowrishankar，1997)。由此看来，在生长到0.2-0.8个600纳米处OD单位之间的多种水平后，诱导蛇卵母细胞cDNA文库3个小时，在12.5％SDSPAGE上解析总蛋白质。在诱导3个小时之后，蛋白质表达随培养物OD值增加，在约0.6OD时达到平台期，在0.6-0.8OD可见极好的过表达。因此，在所有进一步的所述文库诱导实验中使用这些条件。未诱导的和诱导的不带噬菌粒的对照GJ1158细菌与带有噬菌粒的未诱导文库的蛋白质谱图是相似的，而诱导文库的蛋白质谱图显示出相比于未诱导对照发生显著改变。

来自未诱导和诱导的蛇卵母细胞cDNA文库被分成可溶和不可溶组分，在SDS PAGE上进行分析。文库表达蛋白质的较大部分存在于可溶组分中，这与大部分的GJ1158表达蛋白质以可溶形式被发现是一致的(Bhandari and Gowrishankar，1997)。我们将诱导文库蛋白质的不可溶部分溶解于变性溶剂中，如“方法”部分中所述将所述蛋白质复性。我们重复对于剩余不可溶蛋白质的蛋白质提取和复性步骤，最终回收可溶组分中的大多数所表达的蛋白质。因此，我们的蛋白质提取和复性步骤成功回收到最终可溶形式的数量上几乎大多数文库表达的蛋白质。来自蛇卵母细胞cDNA文库的“未诱导”和“诱导”蛋白质2D PAGE谱图显示于图1。“诱导”蛋白质谱图显示出一些新的蛋白质点(在紫色圈中显示)，其未出现在“未诱导”对照中。“诱导”蛋白质谱图清楚显示蛇卵母细胞总cDNA文库在诱导之后表达多个来自克隆cDNA的蛋白质。因此，本文所使用的文库构建、总cDNA文库表达和提取蛋白质的方法获得了成功。

使用如“方法”部分中所述的蛇DNA-Sepharose柱，我们分离了来自总文库表达蛋白中的DNA结合蛋白。当未诱导文库或对照GJ1158细菌蛋白质在相同条件下通过DNA-Sepharose柱接受色谱法时，我们几乎回收不到任何的结合蛋白质。另外，不论添加的竞争剂大肠杆菌DNA存在与否，色谱法中纯化DNA结合蛋白得到几乎相同的2D PAGE模式。这表明，色谱法中所使用的条件允许蛇DNA结合蛋白质特异性地结合蛇DNA-Sepharose。在文库表达蛋白的提取和可溶化处理过程中，细菌DNA片段也被提取进可溶组分。这些大肠杆菌DNA片段可能明确地与蛇DNA-Sepharose竞争结合大肠杆菌DNA结合蛋白。这可能解释了所观察到的蛇DNA结合蛋白与DNA-Sepharose之间的相互作用特异性。我们通过蛇DNA-Sepharose柱分几批处理了从90升文库诱导培养物中回收的总蛋白质，回收了约1.8毫克文库中表达的DNA结合蛋白。我们预期每升GJ1158细菌培养物回收约5毫克过表达蛋白。因此90升培养物应得到约450毫克过表达蛋白。因为我们仅仅从总文库表达蛋白质中分离DNA结合蛋白，其只占总文库表达蛋白的很小一部分，所以这些蛋白质的低回收率(过表达蛋白质的约0.4％)可能是合理的。我们在IEF和之后的2D PAGE上解析了此蛋白质，用考马斯亮蓝R-250对胶进行染色。在图2中显示的纯化的DNA结合蛋白质的谱图显示出存在几个良好解析的点，质量范围在约15-100kDa，pI在约5-9。因此，本文使用的提取和纯化DNA结合蛋白质的方法似乎是成功的。所解析的DNA结合蛋白的点从2D PAGE上切下，接受胰酶的胶内消化，所回收的肽用于MALDI TOF和ESI MS分析。

我们收集了80个DNA结合蛋白的点，其明显具有足以进行MALDITOF分析的浓度，合理地得到了37个蛋白质的良好谱图。这些蛋白质其中四个的代表性MALDI TOF谱图显示于图3中。我们合理地获得这些蛋白质的良好PMF数据，成功确定了所有具有合理的良好蛋白质/Estd Z得分的蛋白质身份。表2给出了23个分离的蛇卵母细胞DNA结合蛋白的数据以及通过这些分析得到的身份。但是，所鉴定的其余蛋白质不是DNA结合的，而是细菌来源的，对此我们提供了最有可能的解释(见下文)。当我们使每个所鉴定的蛇DNA结合蛋白质接受使用通过上述步骤(表2)所得参数的“大肠杆菌”中的PMF分析以取代“所有分类”的时候，每个分析给出仅仅具有很低得分的蛋白质身份，这清楚地表明这些蛋白质不是大肠杆菌蛋白质。如果这些蛋白质是大肠杆菌蛋白质，那么这就不是预期的，因为大肠杆菌基因组是完全测序的，其数据库可用并且大肠杆菌蛋白质可通过PMF分析毫不困难的得以鉴定。

在一些情况下，使用Mascot/Profound或者两种皆使用，我们在200ppm质量误差下得到确定的蛋白质身份。在另一些情况下，只有在使用300-400pm质量误差之后才可得到蛋白质身份。在许多情况下，我们得到具有Mascot或Profound有效得分的蛋白质身份，而其它鉴定的蛋白质仅具有低于有效得分水平的得分，其标记为“(＊)”，在表2中紧挨着所述得分值。在少数情况下，所鉴定蛋白质的蛋白质和/或Estd Z得分略微低于“有效得分”水平。因为Mascot和Profound独立或同时得到具有合理的高蛋白质/Estd Z得分的相同身份，所以我们接受这些。在许多情况下，不可能在使用Profound的一次搜索中得到具有有效得分的蛋白质身份。在这些情况下，我们首先通过Mascot得到合理的高蛋白质得分，使用质量和pI和/在Profound中所鉴定蛋白质的分类，以得到确定的身份(参见方法部分)。在这些情况下，在表2中适当的标记所述身份，并在底部给出说明。此策略使得我们得到数个蛇卵母细胞蛋白的确定身份，有报道称通过Profound PMF搜索相对难以得到确定的蛋白质身份，因此认为带来对蛋白质身份更精确的预测(Daniel et al.，2004)。但是，我们的经验认为通过Mascot得到确定的蛋白质身份更加困难，因此留下了这样的印象，可能Mascot提供了更精确的蛋白质预测。蛇蛋白质数据库的不可用也有可能是造成我们PMF搜索中困难以及得到此观点的原因。

我们将PMF分析鉴定的蛋白质进行NCBI“保守结构域数据库”搜索，以了解它们可能的生理功能。我们得到所鉴定蛋白质最有可能的生理功能，其在表3中显示。有趣的是，注意到大多数所鉴定的蛋白质(表3)似乎需要DNA结合特性以实现它们预期的生理功能，这表明这些可能是真正的/功能性DNA结合蛋白。有趣的是，列表中有属于多个物种(如微生物、害虫、植物、苍蝇类和哺乳动物)的所鉴定的蛋白质。在蛇卵母细胞中鉴定到不同物种的蛋白质不一定意味着蛇卵母细胞实际含有这些蛋白质，而是暗示所分离的蛇卵母细胞蛋白质与早先报道来自这些物种的蛋白质同源。在本研究中所鉴定的DNA结合蛋白包括参与转录/信号转导机制、DNA复制、重组和修复、细胞分裂和染色体分离/分配、前mRNA加工的因子、核酸酶和DNA结合蛋白。

虽然使用严格的色谱条件，尽管明显不具有DNA结合特性但少数蛋白(数据未显示)仍保留在DNA-Sepharose柱上，使它们进入到DNA结合蛋白的组中。我们表达整个蛋白质文库，溶解大多数文库表达蛋白质，使它们在天然条件下通过DNA-Sepharose柱进行色谱。在生理条件的细胞中，细胞的多种功能以及需要这些功能的蛋白质被严格划分，因此生物系统不允许非功能性的蛋白质-蛋白质结合。在DNA-Sepharose亲和色谱过程中，所有天然蛋白质在溶液中共同存在。这可能导致一些非DNA结合蛋白与DNA结合蛋白通过它们促进蛋白质-蛋白质相互作用的基序发生相互作用。β-内酰胺酶是来源于PT7T3D克隆载体的这些蛋白中的一个，其在GJ1158细菌中表达以水解氨苄青霉素，用作细菌的选择标记。DNA结合蛋白也具有蛋白质-蛋白质相互作用基序(除了DNA结合结构域之外)，与其它含有相似基序的功能性蛋白形成多蛋白质复合物，在细胞中与靶基因相结合以实现它们的功能。因此，DNA结合蛋白具有与其它蛋白相互作用的能力，在非生理性系统中(如本文的亲和色谱)不具有DNA结合特性的蛋白质可能很好地与之结合并进入DNA结合蛋白的组中。另外，这些蛋白质-蛋白质(疏水)相互作用在色谱的清洗和洗脱过程中由于缓冲液盐浓度的增加变得稳定。在本研究中，回收参与蛋白质-蛋白质/蛋白质-氨基酸相互作用的并且周质(通常疏水)定位的蛋白质加强了此观点，为在我们的DNA结合蛋白纯化中回收到不带DNA结合特性的蛋白提供了更具说服力的原因。

当肽浓度足够时，我们进行了ESI MS研究并获得了6个蛋白质的序列标签。所研究蛋白质其中4个的代表性ESI MS谱在图4中显示。我们通过NCBI BLAST分析进行了所述序列的数据库搜索，如“方法”部分中所述。有趣的是，通过PMF分析获得的蛋白质身份3601、4401、6403和7305存在于NCBI BLAST所鉴定的具有最高得分的蛋白质中。通过PMF分析获得的1405和7303蛋白质身份不存在于由NCBI BLAST鉴定的相应蛋白质中。从图3可见，蛋白质1405和7303获得的MALDI TOF谱质量很好。进一步的PMF分析在Mascot和Profound搜索中获得唯一的身份，并且至少具有Profound的高得分(表2)。因为通过PMF分析所鉴定的蛋白质1405和7303是DNA结合的(表2)，因为我们使用DNA-Sepharose色谱法回收这些蛋白质，所以我们得出以下结论，由PMF分析得到的这些蛋白质的身份更加可靠。另外，与NCBI BLAST不同，基于来源于全长蛋白质之信息的PMF分析更加可靠，并且支持我们的上述结论。在表4中显示：获得的ESI MS所研究蛋白质的序列标签、来自PMF和NCBI BLAST分析的蛋白质身份、所鉴定蛋白质的质量值以及来自2D PAGE的相应实验值。

表4

比较通过PMF分析获得以及利用其ESI MS序列标签通过NCBI BLAST鉴定的蛋白质身份：

1.标记为(＊)的蛋白质得分，指示此得分低于所需的有效得分水平。接受这些“蛋白质身份”的原因在文中有解释。

我们从稀有组织开始；从总cDNA文库表达蛋白质中分离低丰度的蛋白质，使用蛋白质组学技术对它们进行表征。尽管蛋白量的限制和数据的不可用造成了一些困难，但是我们使用新方法全力克服了这些困难，所述方法显然可用于许多处于这些限制下的类似领域中的工作。构建蛇卵母细胞cDNA文库、表达总文库、使用蛋白质组学方法纯化/鉴定蛋白质，以上整个工作清楚的证明了此方法是有效的方案，具有非常有潜力的用途。我们在分离和鉴定总组织cDNA文库中表达的稀有蛋白质上的成功为开发“组织蛋白质组文库”提供了坚实的基础，所述文库是一个非常新的概念。

本方法相对于现存技术的优点：目前蛋白质的过表达是一个漫长而繁重的步骤。蛋白质的代表性cDNA是通过PCR扩增自组织cDNA库，并连接进表达载体的正确读码框，质粒转化进适宜的宿主细胞，然后诱导所述蛋白质的表达。文献中没有描述过允许表达cDNA库以过量产生它们相应蛋白质库的方法，其节省了在单独过表达所有转录物上的尝试和时间。因此，作为本文所提供概念的证明，原理和实施例1-3是真正新颖的。此方法允许获得所克隆cDNA库过表达成为它们相应的蛋白质库。一些相当重要的分子类型，如DNA结合蛋白，以非常低的量存在于细胞中，甚至于鉴定它们以及鉴定它们在细胞和组织中的存在都非常困难。由于它们的低丰度以及组织的可用性，从细胞和这些组织中分离这些分子相当的困难，有时是不可能的。一些所述细胞/组织(如来自患者的组织样本、卵母细胞和早期胚胎)仅以非常有效或微小的量可获得。因此，本文所给出的方法允许对于存在于它们组织/文库中的mRNA/cDNA过表达大量的蛋白质。另外，它使得从组织蛋白质组文库中过表达的蛋白质库中能够鉴定和/分离这些蛋白质。这也是本方法一个重要的新颖性。

研究人员曾经尝试合成肽组合文库，以寻找特定的具有生物学活性/治疗应用的肽。本发明提供了一个用于表达在错误读码框中翻译并截断的大数量肽的选择。在与疾病进行斗争的过程中，生物系统很可能表达一些错误框中的蛋白质以获得具有生物学活性且有治疗用途的肽。这些肽可作为治疗剂用于控制生物过程。目前尚没有方法表达/合成/过量产生生物学重要的/治疗性的肽。错误框中表达肽导致翻译终止(由于终止密码子)，从而产生一个大的生物学肽库(见下文)，其可能具有重要的生物学特性/治疗用途。因此，本方法是用于产生研究获取这些重要肽库的起始材料之新方法和来源。在文库构建中可用数个高级方法。通过蛋白质表达和蛋白质组学分析可分析少至10个细胞或组织样本中存在的转录物，所述分析中使用PCR扩增cDNA库并构建表达文库。文库构建的方法包括标准化方法，也可用消减文库，其增加了低丰度转录物的频率。消减文库的构建与总cDNA文库的克隆及诱导的联合实现了甚至低丰度转录物的过表达以及通过蛋白质组学方法对它们的分析/鉴定。

有可能开发特别设计用于在表达载体所有读码框中克隆和过表达组织总cDNA的质粒或噬菌粒载体。这些载体中所需的序列元件是待克隆cDNA的5’和3’端特定6-8碱基特定限制性位点(RsaI、SfiI、SgfI、PmeI、NotI等)、抗生素抗性基因、帮助纯化所有表达蛋白的5’端特定氨基酸标签(His标签或GST融合标签等)以及扩增所克隆cDNA所需的在待克隆cDNA某一侧的通用(T7和T3)引物序列，等等。BD Bioscience出售SMART cDNA文库构建试剂盒，其使用噬菌体表达载体。此载体宣称以所有三个表达框表达蛋白质，尽管每个整合进噬菌体的所克隆cDNA在它们可被表达之前必须以噬菌粒形式释放。这需要对每个克隆标准化，因此它们不可用于在一次实验中表达所有克隆的cDNA。因此，需要开发可在一次实验中表达所有克隆cDNA的特定载体，其可用于开发组织蛋白质组文库。

因为蛋白质组学已经具有了自动、高通量的能力，所以它可有利地用于分析和鉴定甚至是存在于含有大数量蛋白质之混合物中的蛋白质。如上述，总文库表达方法可以和蛋白质组学联合，以分析甚至是存在于仅有微小量可用的临床组织样本、卵母细胞和早期胚胎中的转录物。这有利于比较这些样本与合适对照的蛋白质谱，一方面用以评估蛋白质谱图的改变，另一方面用于鉴定它们中存在的未知蛋白质。通过使用这些方法，可以更快的解决当前生物学研究中的重要的难题，如核重编程、胚胎分化、发育、衰老和疾病，所述方法显然加快了蛋白质组学、生物物理学、生物化学和分子生物学领域研究的进展。

参考文献

1.Amatschek，S.，Koenig，U.，Auer H.，Steinlein，P.，Pacher M.，Gruenfelder，A.，Dekan，G.，Vogl，S.，Kubista，E.，Heider，K.H.，Stratowa，C.，Schreiber，M.，Sommergruber，W.(2004)Tissue-wide expression profiling using cDNAsubtraction and microarrays to identify tumor-specific genes.Cancer Res.64，844-856

2.Anderson，M.，Blowers，D.，Hewitt，N.Hegde，P.，Breeze，A.，Hampton，I.andTaylor，I.(1999)，Refolding，purification and characterization of a loop deletionmutant of human Bcl-2 from bacterial inclusion bodies，Protein Expression andPurification 15，162-170

3.Bhandari，P.and Gowrishankar，J.An Escherichia coli host strain useful forefficient overproduction of cloned gene products with NaCl as the inducer.(1997)J.Bacteriol.179，4403-4406

4.Campbell，K.H.，Albersio，R.，Lee，J.and Ritchie，W.A.(2001)Nuclear transferin practice.Cloning Stem Cells，3，201-208

5.Campbell，K.H.，McWhir，J.，Ritchie，W.A.and Wilmut，I.(1996)Implicationsof cloning，Nature 380，64-66

6.Chomczynski，P.and Sacchi，N.(1987)Single-step method of RNA isolation byacid-guanidinium thiocyanate-phenol-chloroform extraction；Anal.Biochem.162，156-159

7.Coleman，A.(2002)Cloning 1，185-200

8.Daniel，C.C.，Gerhard，K.，Kai，S.，Helmut，E.M.，Joachim，K.and Martin，B.(2004)，Evaluation of algorithms for protein identification from sequencedatabases using mass spectrometry data，Proteomics 4，619-628

9.Giltnane J.M.and Rimm D.L.(2004)Technology insight：Identification ofbiomarkers with tissue microarray technology.Nat.Clin.Pract.Oncol.1，104-11

10.Hochstrasser，D.F.，Sanchez，J.C.and Appel，R.D.(2002)Proteomics and itstrends facing nature′s complexity，Proteomics 2，807-812

11.Joubert-Caron，R.，Feuillard，J.，Kohanna，S.，Poirier，F.，LeCaer，J.P.，Schuhmacher，M.，Bornkamm，G.W.，Polack，A.，Caron，M.，Bladier，D.andRaphael，M.A.(1999)A computer-assisted two-dimensional gel electrophoresisapproach for studying the variations in protein expression related to an inducedfunctional repression of NFkappaB in lymphoblastoid cell lines.Electrophoresis20，1017-1026

12.Kadonaga，J.T.and Tjian，R.(1986)Affinity purification of sequence-specificDNA binding proteins：Proc.Natl.Acad.Sci.USA.83，5889-5893

13.Lieb，B.，Carl，M.，Hock，R.，Gebaner，D.and Scheer，U.(1998)Identificationof a novel mRNA-associated protein in oocytes of Pleurodeles waltl andXenopus laevis，Exp.Cell Res.245，272-281

14.Laemmli，U.K.(1970)Cleavage of structural proteins during the assembly ofthe head of bacteriophage T4，Nature 227，680-685

15.Mann，M.，Hendrickson，R.C.and Pandy，A.(2001)Analysis of proteins andproteomes by.mass spectrometry.Annu.Rev.Biochem.70，437-473

16.Nordhoff，E.，Egelhofer，V.，Giavalisco，P.，Eickhoff，H.，Horn，M.，Przewieslik，T.，Theiss，D.，Schneider，U.，Lehrach，H.and Gobom，J.(2001)Large-gel two-dimensional electro-phoresis-matrix assisted laser desorption/ionization-timeof flight-mass spectrometry：an analytical challenge for studying complexprotein mixtures.Electrophoresis 22，2844-2855

17.O’Farrell，P.H.(1975)，High-resolution two-dimensional electrophoresis ofproteins.J.Biol Chem.250，4007-4021

18.Panda A.K.(2003)Bioprocessing of therapeutic proteins from the inclusionbodies of E.coli.Adv.Biochem.Eng.Biotechnol.85，43-93

19.Paynton，B.V.(1998)RNA-binding proteins in mouse oocytes and embryos：expression of genes encoding Y box，DEAD box RNA helicase，and polyAbinding proteins，Dev.Genet.23，285-298

20.Ravassard P.，Icard-Liepkalns C.，MalletJ.，Dumas Milne Edwards J.B.(1997)cDNA libraries from a low amount of cells.Methods Mol Biol.67，317-29

21.Ryabova，I.V.，Virtanen，I.and Coux，O.M.(1994)Distribution of prosomeproteins and their relationship with the cytoskeleton in oogenesis of Xenopuslaevis，Mol.Reprod.Dev.37，195-203

22.Sambrook，J.，Fritsch，E.F.，Maniatis，T.(1989)Cold Spring Harbor LaboratoryManual Vol：1

23.Solter，D.(2000)Mammalian Cloning：advances and limitations，Nat.Rev.Genet.1，199-207

24.Tsunoda，Y.and Kato，Y.(2002)Recent progress and problems in animalcloning；Differentiation 69，158-161

25.User manual(2001)The QIAexpressionist Protocols 10-p80 & 17-p90

26.Vaibhav，C.C.，Subhashani，C.，Dhople，V.M.，Sundaram，C.S.，Jagannadham，M.V.，Kumar，K.N.，Srinivas，P.N.B.S.，Mythili，R.，Rao，M.K.，Kulkarni，M.K.，Hegde，S.，Hegde，A.S.，Samual，C.，Santosh，V.，Singh，L.and Sirdeshmukh，R.(2005)Differential protein expression in human gliomas and molecular insights.Proteomics 5，1167-1177

27.Westhusin，M.E.，Long，C.R.，Shin，T.，Hill，J.R.，Looney，C.R.，Pryor，J.H.andPiedrahita，J.A.(2001)Cloning to reproduce desired genotypes；Theriogenology55，35-49

28.Wilmut，I.，Schnieke，A.E.，McWhir，J.，Kind，A.J.and Campbell，K.H.(1997)Viable-offspring derived from fetal and adult mammalian cells.Nature 385，810-813

29.Wulfkuhle，J.D.，Liotta，L.A.，Petricoin，E.F.(2003)Proteomic applications forthe early detection of cancer，Nat.Rev.Cancer 3，267-275

权利要求书(按照条约第19条的修改)

1.一种获得组织蛋白质组文库的方法，其中所述方法包括：

a.从组织中分离总RNA和mRNA，

b.从步骤a获得的mRNA合成总cDNA库，

c.使用带特异性限制性酶位点的引物扩增自步骤b回收的cDNA，

d.使用相应的限制性酶消化步骤c中获得的PCR扩增cDNA，

e.将步骤d中获得的消化cDNA克隆进表达载体的所有5’→3’方向读码框中，

f.将步骤e中获得的质粒库通过电穿孔转化进细菌，

g.培养并诱导步骤f中获得的细菌培养物用以蛋白质表达，

h.从步骤g中获得的细菌中分离所表达的蛋白质，

i.解析步骤h中所分离的蛋白质、鉴定各个蛋白质及总蛋白的表达水平。

2.根据权利要求1的获得组织蛋白质组文库的方法，其中所述限制性酶是II型限制性酶(如RsaI、SfiI、SgfI、PmeI、NotI等)，其由5(或更多)碱基限制性酶组成，切割后产生粘性末端。

3.根据权利要求1的获得组织蛋白质组文库的方法，其中市售cDNA文库或合成的总cDNA文库定向克隆进表达载体的一个或所有3个可能的读码框中。

4.根据权利要求1的获得组织蛋白质组文库的方法，其中所述方法包括过表达来自步骤g的所述蛋白质以产生来自所述组织的总蛋白质文库。

5.根据权利要求1的获得组织蛋白质组文库的方法，其中所述cDNA库来源于选自以下的生物材料：真核细胞、植物细胞、昆虫细胞和哺乳动物组织、临床组织样品、组织培养细胞、卵母细胞、受精卵、胚胎和纯化的细胞器、组织或整个生物体。

6.一种通过克隆标准化cDNA群体的库获得组织蛋白质组文库的方法。

7.根据权利要求1的获得组织蛋白质组文库的方法，其中cDNA库在表达载体中的克隆/表达与蛋白酶抑制剂或蛋白质稳定剂一起共克隆和或共表达。

8.根据权利要求1-7中任一项的方法制备的组织蛋白质组文库，其中它可用于产生“真实”表达蛋白质的代表性文库以及过表达给定组织中存在的大量转录物(mRNA)。

9.根据权利要求8的组织蛋白质组文库，其中所述文库可用于选自下列的多种用途：过量产生、电泳分离和蛋白质组分析/鉴定来自于存在于组织中的mRNA的所有蛋白质。

10.根据权利要求8的组织蛋白质组文库，其中所述文库可用于鉴定新蛋白质，即使cDNA的截断产物被克隆和表达，或者在从细菌中纯化蛋白质期间产生部分降解的>10kDa的蛋白质。

11.根据权利要求8的组织蛋白质组文库，其中所述文库可用于鉴定组织中存在的新蛋白质/转录物。

12.根据权利要求8的组织蛋白质组文库，其中所述文库可用于鉴定组织中存在的低丰度蛋白质/转录物。

13.根据权利要求8的组织蛋白质组文库，其中用5或更多核苷酸限制性酶限制性消化来自构建的或市售的或预先制备的cDNA文库的cDNA。

14.根据权利要求8的组织蛋白质组文库，其中所述文库可用于下列多种用途：产生如mRNA/cDNA/蛋白质/肽的生物分子库以用于研究或其它目的如工业、治疗、生物医学、健康相关、生物技术、食品技术和化妆品目的，包括其研究和或应用。

15.根据权利要求8的组织蛋白质组文库，其中这些文库可用于分析组织的总细胞蛋白质表达，其选自表达和或分离/鉴定所有表达蛋白质或其任意亚组，所述表达蛋白亚组如膜蛋白、DNA结合蛋白、脂蛋白、核蛋白、转录因子、信号蛋白、核糖体蛋白、线粒体蛋白或任意其它蛋白质亚组。

16.根据权利要求8的组织蛋白质组文库，其中所述文库可用于下列多种用途：通过色谱法、1D或2D聚丙烯酰胺凝胶电泳(PAGE)、等电聚焦电泳(IEF)、高效液相色谱(HPLC)、基质辅助激光解吸-电离飞行时间(MALDI TOF)、电喷雾电离质谱(Electro Spray Ionization MassSpectrometry，ESI MS)对所表达的蛋白质进行分析。

17.根据权利要求8的组织蛋白质组文库，其中所述文库可用于鉴定在所述宿主细胞中表达的分子量至少为10kDa的蛋白质。

18.根据权利要求8的组织蛋白质组文库，其中所述文库可用于产生、鉴定、使用和施用来自权利要求5所述任意生物材料的特定生物肽/生物肽库。

19.基本如本文参考说明书所附实施例及附图所述的组织蛋白质组文库及其制备方法。

Claims

1.一种获得组织蛋白质组文库的方法，其中所述方法包括：

a.从组织中分离总RNA和mRNA，

b.从步骤a获得的mRNA合成总cDNA库，

c.使用带特异性限制性酶位点的引物扩增自步骤b回收的cDNA，

d.使用相应的限制性酶消化步骤c中获得的PCR扩增cDNA，

f.将步骤e中获得的质粒库通过电穿孔转化进细菌，

g.培养并诱导步骤f中获得的细菌培养物用以蛋白质表达，

h.从步骤g中获得的细菌中分离所表达的蛋白质，

5.根据权利要求1的获得组织蛋白质组文库的方法，其中所述cDNA库来源于选自以下的生物材料：病毒、原核细胞、真核细胞、植物细胞、昆虫细胞和哺乳动物组织、临床组织样品、组织培养细胞、卵母细胞、受精卵、胚胎和纯化的细胞器、组织或整个生物体。