CN108474796A

CN108474796A - 筛选的方法

Info

Publication number: CN108474796A
Application number: CN201680075463.1A
Authority: CN
Inventors: 布林·肖恩·哈德威克; 格雷厄姆·詹姆斯·麦肯齐
Original assignee: Fu Mst Co Ltd
Current assignee: Fu Mst Co Ltd
Priority date: 2015-12-22
Filing date: 2016-12-22
Publication date: 2018-08-31
Anticipated expiration: 2036-12-22
Also published as: JP6944455B2; US11821904B2; CN108474796B; GB201522618D0; WO2017109499A1; EP3394621A1; EP3842807A1; JP2019502120A; EP3394621B1; US20220018848A1; US11085926B2; US20190004058A1

Abstract

本发明提供了使用哺乳动物编码的肽(SEP)，例如短开放阅读框(sORF)编码的肽，鉴定靶蛋白上的肽相互作用位点的方法，其中所述靶蛋白调节哺乳动物细胞的表型。本发明进一步提供了用于鉴定在药物发现中使用的新的治疗靶和蛋白质相互作用位点的方法。

Description

筛选的方法

发明领域

本发明涉及用于鉴定在药物发现中使用的新的治疗靶和新的可成药的(druggable)蛋白质相互作用位点的方法。

发明背景

新的治疗靶的鉴定是药物发现的关键起点。药物发现工作传统上集中于鉴定经典的可成药靶，例如激酶、G蛋白偶联受体(GPCR)和离子通道。然而，此类化学上容易获得的靶并不总是代表生物学上最相关的用于治疗干预的靶。将蛋白质:蛋白质相互作用(PPI)成药特别令人感兴趣，因为这些蛋白质相互作用代表了参与癌细胞利用的缺陷信号传导通路中的主要靶类型，以及人类疾病中一大组潜在可作用的接口。不幸的是，对将PPI和其他“不可成药”的靶成药的系统尝试受到技术的限制，这在很大程度上是由于当前基于DNA和RNA的高通量基因组学技术能在蛋白质组水平上鉴定新的可成药空间的限制。

可以使用无偏的“表型”测定来鉴定与疾病生物学相关的候选药物靶的目前基于基因组学的技术，通常是使用基因敲除(例如CRISPR)来执行，或者在转录物组水平上使用RNAi来执行。这些方法产生了关于哪些靶可以代表在疾病进展和疾病治疗干预中的重要节点的重要信息，但是受到严重限制：因为它们是在基因水平而不是蛋白质水平上进行筛选，所以它们无法确定如何将那些靶成药，也无法作为过程中固有的一部分来确定那些是否代表可成药的候选物。这是因为这样的基因筛选除去了靶蛋白而不是抑制它们。为了获得此类重要的关于可成药性的另外信息，将需要使用新的高通量蛋白质组水平筛选技术；一种可以处理比基因功能(～30,000个基因及其剪接变体)更高复杂性的筛选蛋白质功能(>300,000个独特的蛋白质转录本和数百万个独特的PPI)的筛选技术。

最近，随着DNA编码的、蛋白片段表达文库的引入，直接在人蛋白质组中系统鉴定新的药物靶位点获得了一定程度的可操作性和关注，这些文库可以在表型测定中以高通量筛选(诸如WO 2013/116903中所描述的)；常被称为“蛋白质干扰”(Protein-i)。这种蛋白质片段文库(通常来源于不同的细菌基因组)，由形成更大蛋白质的进化构建模块的小的自折叠子结构域组成。当组装为用于哺乳动物细胞中细胞内表达的文库时，它们代表用于对接靶蛋白和探索跨越人蛋白质组的候选的新的可成药位点的三维形状的高度多样化集合。至关重要的是，这些蛋白质片段小到足以描述靶蛋白质中离散的空间位点(discretespatial sites)，因此可以用随后设计成与该形状匹配的小分子药物重现。此外，由于蛋白质片段文库比目前的小分子文库描述了多得多的形状，这为指导对于新的有效靶的未来小分子药物的合理设计提供了更加可靠的方法。

尽管由于细菌基因组主要由编码序列组成，细菌衍生的蛋白片段文库已显示在Protein-i筛选中是有效的，并且通过片段化和克隆到表达文库中而高效率/直接地产生。然而，与使用哺乳动物或人蛋白质组本身的片段相比，它们可在拥有大比例的能与哺乳动物(例如人)蛋白功能性地相互作用的蛋白片段方面动力不足。

然而，直接从哺乳动物(例如人)的基因组创建蛋白质片段文库的复杂性在于，高等生物具有大量得多的编码序列，因此通常需要大量人工定制克隆来将其片段组装为表达文库，以用于表型筛选。这是因为高等生物的DNA大部分地含有非编码序列(估计人DNA的>95％是非编码的)，并且编码序列的绝对数量要大得多。因此，它们需要一种独特和特别的方法将其片段组装为表达文库用于表型筛选。

迄今为止描述的那些细菌衍生的蛋白质片段文库(例如在WO2013/116903中)是通过机械剪切(mechanically shearing)基因组并将片段随机插入载体中获得的。这产生对于细菌中的原始基因为符合读框(1:6的机会)或不符合读框(5:6的机会)的许多随机大小的片段。对于真核生物来说，同样的策略是行不通的，因为它们的DNA大部分是非编码的。此外，细菌衍生的蛋白质片段文库诸如这些没有“清单”，即，因为序列是随机克隆的，所以除了通过非常深的测序之外，不可能准确说出给定文库中包含的内容。

这些实际的限制导致了在人类细胞的靶鉴定和验证筛选中，挖掘直接相关蛋白质折叠结构多样性的潜在丰富的替代矿脉时存在显著的惰性。

其它筛选方法描述于例如WO 01/86297中。这里产生随机短(40-mer和20-mer)肽噬菌体展示文库，并将该文库用于寻找结合到预先选择的靶或已知的、预先鉴定的共有基序的肽。这依赖于已知/已识别的现有的疾病靶，并且不利于鉴定新的靶。

因此，本发明的目的是提供筛选哺乳动物蛋白和/或蛋白片段文库的方法。

发明概述

在一方面，本发明提供了鉴定调节哺乳动物细胞的表型的靶蛋白的方法，所述方法包括将能够显示所述表型的体外培养的哺乳动物细胞群体暴露于SEP(“短表达肽(shortexpressed peptide)”)的文库；在所述暴露后在所述细胞群体中鉴定所述表型的改变，选择经历表型改变的所述细胞并鉴定改变细胞的表型的SEP，提供所述SEP并鉴定结合所述SEP的细胞蛋白，所述细胞蛋白是调节哺乳动物细胞的表型的靶蛋白。

“SEP”是衍生自DNA编码序列文库的“短表达肽”。SEP是短肽(<150个氨基酸)。在优选的实施方案中，SEP是6至130个氨基酸、优选6至100个氨基酸的肽。这样的肽可以是多达20、30、40、45、46、50、60个或更多个氨基酸。例如，这样的肽可以是6至45个氨基酸或6至60个、6至70个、6至80个、6至90个或60至100个氨基酸。在一种实施方案中，SEP是40个或更多个氨基酸，优选40至60个氨基酸的肽。SEP由核苷酸序列片段编码。如本文所用，术语“SEP”可以指肽或氨基酸序列，或者指编码所述肽/氨基酸序列的核酸序列。在一种实施方案中，SEP是哺乳动物的，适合地是人的。它们代表了尚未开发的生物功能性肽库，用于定义人基因组中潜在的新的功能性可成药靶。

在本发明任何方面的一种实施方案中，“SEP文库”可以包括由来自单一物种、生物或个体的或来自混合来源的核酸分子编码的肽。有利的是，“SEP文库”是来自单一生物的，优选哺乳动物，例如人。“SEP文库”可以指肽文库或编码所述肽的核酸分子文库。在本发明的任何方面的一种实施方案中，SEP文库包含衍生自哺乳动物例如人的核酸序列的肽。

有利的是，根据本发明的SEP文库经由计算机模拟设计成仅使用来自蛋白质组共有数据库的表达的蛋白质。另外，在一种实施方案中，文库中的SEP是固定大小的(这在文库产生/克隆和在下一代测序(NGS)分析/筛选中是有利的)。因此，合适的是，文库包含6至100个氨基酸的SEP(或编码它们的核酸分子)，优选40或45至100个氨基酸的SEP。此外，根据本发明的人类文库被设计成符合读框(没有由于移码而过早停止)，并且表达的肽100％的时间与人蛋白匹配。进一步地，根据本发明的人类文库跨人类蛋白质组中的所有蛋白质分布，并且以完整的清单存在，因为片段是通过大规模平行合成而不是随机克隆过程产生的。

在另一种实施方案中，文库还可以进一步包括来自微生物的肽和/或来自真核物种的小基因组的肽。在一种实施方案中，文库可以包括由与来自非细菌序列的序列(例如哺乳动物衍生的序列)组合的细菌衍生的文库编码的肽(参见例如WO 2013/116903和其中提到的引文)。

为了产生SEP文库并优先考虑那些在有限片段大小内最有可能是生物相关的序列，特别是人类序列，人们可以在人类基因组中搜索和利用天然短的表达功能序列，或者基于目前对结构域结构的生物信息学预测，从较大蛋白质中合理地选择片段。

相对于先前的方法，最近在基因组中，如人类基因组中，发现了新的一类小的(通常<100个氨基酸)、表达的、和进化保守性的蛋白质编码序列。这些序列被称为“短开放阅读框”(sORF)，并且考虑到它们从细菌到人类的进化保守性，它们可能编码功能性肽(或微肽)。sORF的鉴定被综述在，例如Chu等人，Critical Reviews in Biochemistry andMolecular Biology，第50卷，第2期，第134-141页，2015中。

在一种实施方案中，SEP包括由天然短开放阅读框(sORF)序列编码的肽。这样的sORF序列可以衍生自任何生物。在一种实施方案中，sORF来自哺乳动物核酸，合适地人核酸。

描述sORF的假定功能还处于未成熟阶段，但一些现在已经被证明具有生物学相关的活性；通常通过改变其他较大蛋白质的固有特性来获得较大的调节输出(在试图鉴定PPI靶中新的可成药位点时，这是一个潜在的吸引人的特征)。例如，在果蝇中鉴定的一种被称为“Polished Rice”的sORF已被证明显著改变了被称为“Shaven Baby”的大得多的抑制转录因子的活性(Chu Q等人，Critical Reviews in Biochemistry and MolecularBiology，2015，50(2)，134-141)。“Polished Rice”通过募集和引导通常非选择性蛋白质降解(蛋白酶体)机制起作用，以将Shaven Baby特异性裂解成截短形式，这种截短形式现在是转录激活物，而不是抑制物。这种在共同而重要的“不可成药”的PPI靶类中引发的重大变化，如果被许多其他sORF系统地携带，可能代表设计新的PPI的小分子抑制剂的丰富来源。

随着基因组注释算法的改进，越来越多的sORF现在被证明存在。它们以前的模糊性在于，它们通常在更大的常规基因结构中表达为“乘客(passenger)”，或者当作为独立基因(stand-alone gene)出现时，具有非常规启动子区域和/或翻译起始密码子。目前已经描述了～2000个预测的候选sORF，其中许多已经显示被表达，但是大多数还没有被归属功能。

因此，在一种实施方案中，SEP包括sORF的肽产物，例如在人类基因组中发现的天然sORF。合适的是，SEP文库包含表达的sORF文库。这样的文库可以包含2000个或更多个不同的假定的sORF。本发明的方法提供了使得能够以高通量的方式筛选诸如这些的大文库的活细胞测定系统。

在另一方面或另一种实施方案中，SEP文库可以包括基于结构域结构的当前生物信息学预测从较大蛋白质中合理选择的片段，即人和/或哺乳动物肽的定制的克隆的预定义的子结构域，或微肽(例如人子结构域文库)。合适选择的片段将具有自折叠潜力，并被选择用于最大的形状多样性。这种定制的克隆可以通过例如DNA合成或使用引物的PCR方法来实现，所述引物识别编码具有特定功能的分子(例如信号传导受体、转录因子等)的序列的特定序列特征。

在另一方面或另一种实施方案中，SEP文库可以包括由随机克隆的cDNA文库，例如通过鸟枪克隆(shot-gun cloning)，编码的肽。本文描述了用于随机克隆的方法。

在另一方面或另一种实施方案中，SEP文库可以包含由来自基于可用的表达的蛋白数据库的经由计算机模拟设计的短序列的片段编码的肽。本文描述了用于这种设计的方法。

本发明还涉及sORF文库，优选完整“sORFome”文库(即代表所有天然表达的sORF)的产生，并筛选所得的sORF肽文库或sORF与其它SEP的组合文库(例如“SEPome文库”)，以鉴定调节疾病相关通路的一个或更多个SEP。这些方法可用于鉴定和表征新的可成药的靶蛋白以及蛋白:蛋白相互作用(PPI)或变构位点，以用作调节这些通路的药物靶。

本文描述的发明提供的优点是，它允许在活细胞“表型”测定形式中筛选“sORFome”和/或“SEPome文库”和/或大规模SEP文库的全部复杂性，以确定其功能。这种方法允许强大的正选择和少量真命中(hit)肽与非常大量的非命中(non-hit)肽序列的分离，合适地使得能够建立与疾病的明确联系。

SEP及其靶蛋白，包括其可成药的结合位点的鉴定可以以精确、有效和可靠的方式与疾病(由疾病模型代表)直接相关联，并在开发用于治疗疾病的合适药物候选物方面提供明显优势。

特别地，本发明的方法提供了对在疾病进展中起作用的、以其他方式可能是不可被鉴定的关键的新的可成药位点的鉴定。

筛选SEP文库的优点是，像小分子药物一样，它们通过直接和急性地抑制(或激活)靶功能(而不是消除靶的长期表达)起作用。在通路抑制物筛选(癌症研究中经常是这样的情况)中，这种方法的关键是将“阴性”细胞表型信号(例如，信号传导通路的关闭或蛋白/蛋白相互作用的破坏)转化为可以从含有非活性肽序列的细胞的大池(large pool)中选择或分离的阳性信号。

有利地，在一种实施方案中，根据本发明的方法不筛选以鉴定与包含相似共有序列的已知靶或分子的相互作用，而是筛选表型。这使得本方法能够测试和/或鉴定数十万个基因产物作为潜在靶。本发明允许检测天然存在的结合(binding)而不使用随机文库和基序构建的方法。

尽管本发明主要集中于使用人SEP(包括sORF)文库和人子结构域文库来产生和鉴定SEP，从而产生和鉴定新的可成药靶，但是本发明的新方面可以衍生自来自低等生物、非人来源的cDNA衍生的SEP文库，例如鸟枪克隆的cDNA衍生的文库。例如，序列可以从已知引起人疾病的细菌、病毒和寄生虫的蛋白质组获得。这些就那些已知通过破坏特定细胞过程而引起疾病的生物而言是感兴趣的。特别令人感兴趣的还有构成肠道菌群的细菌，已知其中许多细菌参与粘膜免疫过程。预期来自这样的生物体的cDNA衍生的SEP引起免疫系统细胞的免疫调节作用，因此可能在治疗自身免疫性疾病中找到用途。一般来说，如果已经鉴定cDNA衍生的SEP文库的细胞过程，则使用测量这些过程的测定鉴定表型效应是可能的。因此，有可能将定制的cDNA衍生的SEP文库与定制的、知识导向的表型测定相关联。

在一种实施方案中，提供了根据本发明的任何方面的方法，其中在测定中使用细胞蛋白和SEP以鉴定结合所述细胞蛋白和破坏SEP结合(例如破坏所述SEP与所述细胞蛋白的结合)的配体。

有利的是，在根据本发明的方法中，在筛选之前不需要存在鉴定的候选靶。

另一方面，提供了鉴定与靶蛋白结合并置换或阻断所述SEP结合的化合物的方法，其中所述化合物调节哺乳动物细胞的表型，所述方法包括以下步骤：

i.将能够显示所述表型的体外培养的哺乳动物细胞群体暴露于SEP

文库；

ii.在所述暴露后鉴定所述群体中显示所述表型的改变的细胞；

iii.鉴定改变细胞的所述表型的SEP；

iv.鉴定结合所述SEP的细胞蛋白，所述细胞蛋白是调节哺乳动物细

胞的所述表型的靶蛋白；

v.鉴定结合所述靶蛋白并置换或阻断所述SEP结合的化合物。

在一种实施方案中，哺乳动物细胞的表型是与疾病相关通路相关的表型。合适的疾病相关通路包括经活化的细胞信号传导通路；和/或选自由以下组成的列表的一种：分化、转录活性、蛋白表达、抗感染(resistance to infection)、渗透性和增殖。

在一种实施方案中，所述SEP文库包括(i)多于一个单独的并可寻址的SEP；或(ii)所述SEP文库由编码SEP的多于一个单独的或可寻址的核酸表达。

在一种实施方案中，(i)所述SEP文库包含汇集的多于一个SEP或(ii)所述SEP文库由编码SEP的汇集的多于一个核酸表达。

在另一方面，提供了如在本文所述的SEP文库。在一种实施方案中，提供了如本文实施例部分所述的SEP文库。

在一种实施方案中，所述病变细胞选自癌细胞、自体反应性T细胞、发炎的软骨细胞和胰岛素抗性细胞。

在另一种实施方案中，所述病变细胞选自原代/患者衍生的细胞和/或诱导多能干细胞。

在另一方面，提供了SEP文库，其包括(i)多于一个单独的并可寻址的SEP；或(ii)编码SEP的多于一个单独的或可寻址的核酸。在一种实施方案中，SEP文库包含多于一个sORF。

在另一方面，提供了根据本发明的方法中鉴定的SEP在用于鉴定与所述SEP相互作用的化合物的筛选方法中的用途。

在另一方面，提供了根据本发明实施方案的任何方面的方法中鉴定的SEP，其用作药物。在另一方面，提供了治疗有相应需要的受试者中的疾病的方法，包括向所述受试者施用治疗有效量的在根据本发明的方法中鉴定的SEP。

附图

图1显示了从NFkB筛选获得的，来自NFkB启动子下游的萤火虫萤光素酶的发光(即由NFkB转录报告物驱动的萤火虫萤光素酶活性)和来自对照CMV启动子下游的海肾萤光素酶(renilla luciferase)的发光的图。萤光素酶活性被在BMG Clariostar平板阅读器(plate reader)上读出。

图2显示了在一系列的SEP的存在下，从NFkB筛选获得的萤火虫萤光素酶的相对发光。

图3显示了在BMG Clariostar平板阅读器(plate reader)上读出的从Notch筛选(Notch screen)获得的萤火虫萤光素酶(Notch响应启动子下游)和海肾萤光素酶(对照CMV启动子下游)的发光图。

图4显示了在一系列的SEP的存在下，从Notch筛选获得的萤火虫萤光素酶的相对发光。

图5显示了对于能够克服6-TG毒性的SEP的筛选。用500nm 6-TG持续6天处理携带SEP文库的细胞。显示了6-TG处理(n＝3)和DMSO对照(n＝3)之间的富集。

图6显示了对于能够下调YAP信号传导的SEP的筛选。携带SEP文库和包含连接到GFP报告物的YAP响应元件的构建体的细胞被分选在YAP/GFP低和基础YAP/GFP群体中。示出了超出基线YAP信号的低YAP SEP的富集倍数。

发明详述

SEP优选地衍生自cDNA序列。编码来自一个或更多个转染或转导的细胞的SEP的核酸可以被扩增、克隆和/或测序。编码SEP的核酸可被表达以产生SEP。

在一些实施方案中，细胞或细胞群体可以分别用编码SEP的核酸或编码SEP的多样性群体的核酸文库转染或转导。

用于产生SEP的核酸可以包括从一种或更多种不同生物体、优选人类或哺乳动物物种获得的基因组DNA、RNA或cDNA。在一种实施方案中，SEP由可包括原核生物的不同生物体的混合物产生。在一种实施方案中，SEP由来自人类和/或其他哺乳动物来源的约100个密码子的短开放阅读框(sORF)编码。SEP文库可以使用任何方便的技术来构建。

在另一种实施方案中，可以通过将来自一种或更多种哺乳动物核酸的核苷酸序列的短片段克隆到表达载体中来构建SEP。在一种实施方案中，可以通过将来自一种或更多种哺乳动物核酸的核苷酸序列的短片段随机克隆到表达载体中来构建SEP。用于产生片段的合适方法包括例如机械剪切(例如通过超声波处理或使核酸通过细规格针头)、用核酸酶(例如DNA酶1)消化、用一种或更多种限制酶，优选地识别4碱基限制酶位点的频繁切割酶消化，以及用辐射(例如γ辐射或紫外线辐射)处理DNA样品。在一种实施方案中，片段可以通过基于生物信息学的片段设计、随后DNA合成而产生。在一些实施方案中，可以使用例如随机或简并寡核苷酸，通过聚合酶链式反应(PCR)从一个、两个或更多个哺乳动物基因组或转录物组生成核酸片段。随机或简并寡核苷酸可以包括限制酶识别序列，以允许将扩增的核酸克隆到合适的核酸载体中。

SEP文库可以通过包括以下的方法产生：

(i)从来自哺乳动物组织的核酸中产生所选片段；

(ii)将核酸片段插入适于表达片段的表达载体中；以及

(iii)表达由核酸片段编码的肽。

在一种实施方案中，所选核酸可以如本文所述合成。

核酸片段可以从来自一个或更多个基因组或转录物组、优选基因组并且优选人类基因组的基因组DNA、cDNA或经扩增的核酸产生。合适地，核酸片段衍生自人类基因组或转录物组。

核酸片段可以产生自来自不同生物体的核酸的混合物(即基因组或转录物组)。核酸在混合物中的存在量可以与基因组(或转录物组)的复杂性和大小成比例，例如与混合物中其他基因组的复杂性和大小相比。这导致基因组片段的近似相等的表示。

核酸片段可以通过本领域技术人员已知的多种方法中的一种或更多种从一个或两个或更多个哺乳动物基因组或转录物组产生。合适的方法包括用于随机克隆的那些方法，如上所述。

编码SEP的核酸侧翼(例如编码序列的5’和3’)可以为特定的序列标签。序列标签包括例如10至50个已知序列的核苷酸，其可用作寡核苷酸引物的结合位点。优选地，标签的序列不在哺乳动物基因组中发现。这允许SEP的编码序列在需要时被方便地从哺乳动物细胞中扩增，例如通过PCR。合适的用于高通量筛选的自动化方法，包括条形码化和退出(drop-out)筛选，在例如Sims等人，Genome Biology 2011,12:R104中被描述。

因此，SEP文库包括(i)多于一个单独的并可寻址的SEP；或(ii)所述SEP文库由编码SEP的多于一个单独的或可寻址的核酸表达。SEP文库可以通过在哺乳动物细胞群体中表达编码不同SEP群体的核酸文库而被引入所述哺乳动物细胞群体中。

在一种实施方案中，SEP文库可以包含1×10⁶个或1×10⁵个或更多不同的氨基酸序列，或者由包含1×10⁶个或1×10⁵个或更多不同的编码SEP的核酸序列的多于一个核酸表达。合适地，不同氨基酸或核酸序列的数量在1×10⁶或1×10⁵至1×10¹⁰个的不同序列，例如1×10⁸至1×10⁹个不同序列的范围内。

进一步的文库可以包括来自较大的人类蛋白的定制的克隆的SEP，代表已知较小的子结构域。这些将具有与天然SEP相似的大小，但衍生自常规表征的cDNA序列。

在优选的实施方案中，用编码SEP的多样化群体的核酸文库转染或转导哺乳动物细胞群体。可以汇集文库以允许同时转染或转导和筛选文库的所有成员。

一旦鉴定出感兴趣的SEP，例如，鉴定为改变细胞表型的SEP，可以分离SEP以进一步分析，如本文所述。用于从哺乳动物细胞分离核酸的技术在本领域中是众所周知的。例如，可以从细胞分离总DNA，然后可以从分离的总DNA扩增编码SEP的核酸。在一些优选的实施方案中，可以使用与SEP编码序列侧翼的序列特异性标签杂交的引物扩增核酸。

编码SEP或其扩增产物的核酸可以被克隆到载体中和/或被测序。

在一些实施方案中，被鉴定的核酸可以进一步被操作，例如通过重新克隆。在一些实施方案中，可以将核酸克隆到表达载体中与编码异源肽的另一核酸相邻处，使得该载体表达包含融合到异源肽的SEP的融合蛋白。合适的异源肽包括表位标签、亲和标签和细胞穿透肽(CPP)。

有各种生产SEP的方法可用。编码核酸可被表达以产生SEP(参见例如RecombinantGene Expression Protocols Ed RS Tuan(Mar 1997)Humana Press Inc)。可选地，SEP可以全部或部分通过化学合成产生。SEP可以如下合成：用液相或固相合成方法；在溶液中；或者通过固相、液相和溶液化学反应的任何组合，例如通过首先完成各自的肽部分，然后，如果需要和合适的话，在除去存在的任何保护基团之后，通过各自的碳酸或磺酸或其反应性衍生物的反应引入残基X。肽的化学合成是本领域公知的(J.M.Stewart和J.D.Young，SolidPhase Peptide Synthesis，第2版，Pierce Chemical Company,Rockford,Illinois(1984)；M.Bodanzsky和A.Bodanzsky，The Practice of Peptide Synthesis，SpringerVerlag,New York(1984)；J.H.Jones,The Chemical Synthesis of Peptides.OxfordUniversity Press,Oxford 1991；在Applied Biosystems 430AUsers Manual,ABI Inc.,Foster City,California中；G.A.Grant,(编)Synthetic Peptides,AUser’sGuide.W.H.Freeman&Co.,New York 1992，E.Atherton和R.C.Sheppard，Solid PhasePeptide Synthesis,APractical Approach.IRL Press 1989,以及在G.B.Fields,(编)Solid-Phase Peptide Synthesis(Methods in Enzymology Vol.289).Academic Press,New York and London 1997)。

然后用表型筛选系统地列举序列(如SEP序列)的内源性功能作用。除了筛选作为SEP文库一部分和/或SEP文库的天然sORF之外，还预期，病变细胞如癌细胞可表达不同于正常、非病变细胞的sORF或SEP库(repertoire)。差异表达的sORF或SEP可形成在病变细胞如癌细胞中所见的失调信号传导通路的一部分，正如癌细胞/病变细胞与正常细胞相比微RNA表达谱(expression profile)被改变一样。这些也代表将在表型测定中筛选任何患病状态的富集的sORF或SEP池。

在另一方面，提供了鉴定在病变细胞中与对照细胞相比差异表达的sORF或SEP的方法，所述方法通过将能够显示改变的表型的体外培养的哺乳动物细胞群体暴露于所述差异表达的sORF或SEP的文库；在所述暴露后鉴定所述群体中显示所述表型的改变的细胞；鉴定改变所述细胞的所述表型的sORF或SEP；鉴定与所述靶蛋白结合并竞争或阻断所述sORF或SEP结合的测试化合物；提供所述鉴定的测试化合物。

使用SEP进行表型筛选的方法可选自：1)通路特异性读出，其使用异源报告物(例如GFP或萤光素酶)记录活细胞中的总蛋白质水平、蛋白质定位或在基因转录水平的最终通路活性；2)在固定的“非活”细胞中使用抗体或其他亲和试剂记录内源性蛋白质水平或其定位，或使用qPCR或RNA测序记录通路特异性转录输出；3)活细胞中基于高含量或“整体”的读出，其能够记录治疗相关性的特定“目的地”表型读出，例如分化、衰老和细胞死亡，所有这些都是协调的，并且可以通过多种细胞通路的复杂相互作用被特异地调节。

在本发明涵盖“整体”表型测定的特定方面，“合成致死性(SyntheticLethality)”筛选特别重要。合成致死性筛选是寻找靶(例如癌症靶)和候选治疗剂的方法，其可通过利用不可预测的次级弱点，与正常细胞相比，选择性地影响肿瘤细胞，由于肿瘤细胞猛烈地重接信号传导通路以支持无限制的细胞增殖，所以所述次级弱点可发生在肿瘤细胞中。因此，这种筛选必须在活细胞中并且以无偏的方式进行，通过抑制或调节细胞中的基因(使用CRISPR)、mRNA(使用RNAi)或蛋白质或蛋白质构象(使用Protein-i)，然后确定是否发生对肿瘤细胞类型的整体生长或存活的一致的负面影响；优选的是，与正常细胞类型相比，具有发生在肿瘤情况下的特定遗传改变的细胞。这些基于直接的“整体的”细胞存活力输出的筛选是这样进行的：使用大组(large panel)遗传表征的肿瘤细胞和正常细胞来获取关于肿瘤基因型依赖性响应的相关性信息，或更有效地使用特定工程化的细胞系来进行，所述细胞系对于分别存在于癌细胞与正常细胞中的选择的突变体与正常基因型是等基因的。

因此，本发明的另一方面提供了鉴定调节病变哺乳动物细胞特异的表型的靶蛋白的方法，所述方法包括将能够显示所述表型的体外培养的哺乳动物细胞群体(例如，其中所述培养的细胞提供疾病模型)暴露于SEP文库；在所述暴露后鉴定在所述细胞群体中所述表型的改变，选择经历表型改变的所述细胞并鉴定改变细胞的表型的SEP，提供所述SEP并鉴定结合所述SEP的细胞蛋白。

术语“调节(modulation)”可以包括抑制(inhibition)、失活、阻抑(suppression)或增加表达和激活。测试化合物可以是通过使细胞与生物分子接触或通过在细胞中表达编码SEP的核酸而引入细胞的生物分子。

当定义在病变组织与正常组织中差异表达的sORF或SEP时，使用基于基因组的技术，例如微阵列和RNA测序，其被修改以对非常规sORF或SEP进行评分，以询问(interrogate)不可成药的靶和通路，例如KRAS，以及选自基因组数据库和文献报告的许多其他不可成药的疾病基因。进行使用这些天然的和疾病特异性的sORF(和/或SEP)文库的表型筛选以获得调节活性的候选通路；最初在这些通路中，它们首先被显示为差异表达，如果这是使用的选择标准的话。例如，这可以包括转录报告物测定，其被配置为评估sORF(或SEP)对例如各种K-Ras激活的信号传导通路的影响，所述信号传导通路包括但不限于AP1、Elk1、NF-kB和NFAT。通过测定显示调节这些通路的能力的命中的sORF(或SEP)对其它通路的影响来评估它们的通路特异性，并且测定所得的特异性命中差异性地影响疾病细胞与正常细胞的存活力或功能的能力。在其他表型筛选形式中，直接筛选sORF(或SEP)以获得这些最终差异疾病与正常生物读出。

在上述初始“表型筛选”阶段引发可靠的疾病相关响应的sORF/SEP然后进入第二“靶-ID”阶段，在此阶段鉴定细胞内的物理结合伴侣。这是通过使用适合于检测蛋白:蛋白相互作用的方法来实现的。例如通过在人细胞内表达SEP的加亲和力标签的形式，使用与保留PPI相容的标准裂解技术破碎细胞，通过亲和色谱法分离SEP和内源性蛋白质结合伴侣，然后通过质谱法鉴定SEP结合伴侣(潜在地具有其间的SDS-PAGE凝胶分离步骤)。这些技术使得能够鉴定SEP结合伴侣，细胞中是SEP的天然配体的分子。可以使用其它类似的生化亲和力下拉(pull-down)技术。在正交测定如免疫沉淀或哺乳动物-2-杂合体测定中确认鉴定的任何结合伴侣确实如此。使用已建立的细胞生物学技术，例如过表达、RNAi敲低、CRISPR基因靶向或所述方法的组合，验证了确认的伴侣在细胞信号传导通路(例如K-Ras通路)中具有作用。那些具有经验证的作用的结合伴侣是小分子探针发现的第三个也是最后一个阶段的真正目标。

在本发明的另一方面，提供了鉴定靶蛋白上的蛋白相互作用位点的方法，其中所述靶蛋白调节哺乳动物细胞的表型，所述方法包括以下步骤：

i.将能够显示所述表型的体外培养的哺乳动物细胞群体暴露于SEP文库；

ii.从较大体积的(larger bulk)无响应细胞中鉴定和选择群体中在所述暴露后显示所述表型的改变的细胞；

iii.鉴定改变细胞的所述表型的SEP；

iv.鉴定结合所述SEP的细胞蛋白，所述细胞蛋白是调节哺乳动物细胞的所述表型的靶蛋白；

v.鉴定结合所述靶蛋白并置换或阻断所述SEP结合的测试化合物。

本发明还涉及以下方法：对SEP文库进行表型筛选以鉴定调节疾病相关通路的SEP，鉴定这些SEP的结合伴侣(存在于病变细胞中)，鉴定这些结合伴侣为在药物发现中使用的新靶，并筛选调节新靶以改变疾病状态或疾病进展的分子。

在本发明的另一方面，提供了以下方法：鉴定在病变细胞中与对照细胞相比差异表达的sORF或SEP，然后将能够显示改变的表型的体外培养的哺乳动物细胞群体暴露于所述差异表达的sORF或SEP的文库；在所述暴露后鉴定所述群体中显示所述表型的改变的细胞；鉴定改变所述细胞的所述表型的sORF或SEP；鉴定与所述靶蛋白结合并竞争或阻断所述sORF或SEP结合的测试化合物以及提供所述鉴定的测试化合物。

病变细胞优选地选自癌细胞、自体反应性T细胞、发炎的软骨细胞和胰岛素抗性细胞。

一种方法涉及调节细胞信号传导通路的SEP的鉴定和参与信号转导的蛋白质上的PPI上的表面位点的鉴定，并且所述位点可以用作调节细胞信号传导通路，特别是在癌细胞中有活性的通路的药物靶。

细胞信号传导通路是细胞中的一系列相互作用因子，它们在细胞表面处响应细胞外刺激而在细胞内传递细胞内信号，并导致细胞表型的改变。信号沿着细胞信号传导通路的传递导致一种或更多种转录因子的激活，这改变基因表达。用于SEP筛选的优选细胞信号传导通路在疾病模型中显示异常活性，例如在病变细胞(例如癌细胞)中激活、上调或错调。例如，通路可以在癌细胞中组成性激活(即永久地开启)，或被细胞外配体不适当地激活，例如在类风湿性关节炎的炎性细胞中。

功能性细胞信号传导通路是完整且如果该通路被开启或激活，例如通过适当的细胞外刺激，能够传递信号的通路。活性细胞信号传导通路是例如通过适当的细胞外刺激而被开启，并且活跃地传递信号的通路。

合适的细胞信号传导通路包括响应于细胞接收的信号而导致转录事件的任何信号传导通路。

本文所述的用于研究的细胞信号传导通路可包括可在癌细胞中激活或改变的细胞信号传导通路，例如Ras/Raf、Hedgehog、Fas、Wnt、Akt、ERK、TGFβ、EGF、PDGF、Met、PI3K和Notch信号传导通路。

在鉴定SEP的结合伴侣之后，可以鉴定与SEP相互作用的结合伴侣的结合位点、区域或结构域。该位点、区域或结构域也可用作开发调节该通路的治疗剂的靶位点。

例如，可以进行基于系列缺失构建体(deletion construct)的X射线晶体学、NMR或标准生化技术，例如免疫沉淀。例如，SEP可以与靶蛋白共结晶，并解出结构。

在通过本文所述的方法鉴定靶蛋白之后，可以研究靶蛋白的相互作用位点。相互作用位点是SEP结合以调节靶蛋白活性的位点或区域。由于在相互作用位点的结合调节活性，因此相互作用位点是靶蛋白藉以与结合伴侣结合的位点或区域。例如，当靶蛋白结合到其结合伴侣时，相互作用位点可以是蛋白:蛋白界面的位点。

在鉴定了改变细胞表型的SEP并产生SEP(任选地作为融合蛋白)之后，方法可以进一步包括确认SEP对哺乳动物细胞表型的影响。例如，已经与细胞穿透肽(CPP)一起合成的SEP可以直接用于细胞上，以引起表型偏转(deflection)。

相互作用位点由在所述位点结合的SEP的阻断可以破坏靶蛋白与结合伴侣的结合。因此，在相互作用位点的结合可以调节靶蛋白的活性，并改变一个或更多个表型性状(trait)或特征。

因此，本发明提供了以下方法，所述方法允许在人细胞的高通量测定中筛选高复杂性SEP文库和/或“SEPome”的全部复杂性，以：1)确定它们在调节人疾病通路中的生物学功能；2)分离引起那些表型的内源性细胞靶；和3)在这些靶中定义新的可成药空间，然后可利用这些空间设计新的小分子药物。

因此，在本发明的另一方面，提供了结合SEP的结合伴侣，其可以被鉴定，所述结合伴侣是用于调节疾病相关通路的候选靶蛋白。

由如上所述从文库鉴定的测试核酸表达的抑制性生物分子可用于筛选细胞内结合伴侣，例如结合到生物分子的细胞蛋白质。例如，表达的生物分子可用作诱饵分子，以鉴定哺乳动物细胞或细胞提取物中的细胞内结合伴侣。可以分离与诱饵生物分子结合的细胞蛋白质。

如本文所述，重现SEP的结合特性和表型的小分子的发现可以通过以下实现：SEP与其结合伴侣的结晶和用于为从头药物设计提供信息的所得的界面3D结构，或者通过产生基于竞争的测定(例如荧光偏振测定、ELISA、BiaCore或Alpha LISA)来在高通量小分子文库中筛选，增加暴露于化学化合物的滴定，所述化学化合物可以取代SEP:内源性伴侣复合物。这种小分子被测试其重现原始SEP表型的能力，以及这些小分子命中的形状和结合特性的优化，通常再次使用x射线晶体学蛋白质结构引导技术。

可以采用常规技术，例如置换测定，来筛选与SEP竞争结合靶蛋白的化合物。例如，方法可以包括使包含结合到SEP的靶蛋白的复合物与测试化合物接触。SEP被测试化合物的置换表明，测试化合物在与SEP相同的位点结合到靶蛋白。可以使用标准置换测定平台，例如Alpha-LISA^TM或荧光偏振。

可以从靶蛋白置换测试化合物的SEP和/或可以置换SEP的化合物被预测也抑制细胞中靶蛋白的活性，并且可以用于开发治疗剂。

因此，本发明的方法可以进一步包括筛选测试化合物，例如小有机分子、抗体、核酸或肽，所述测试化合物与如上所述鉴定的SEP结合到靶蛋白上相同的相互作用位点。

本发明的另一个方面提供了筛选能够阻断或改变SEP:SEP-伴侣相互作用的化合物的方法，其中化合物调节疾病相关通路，从而所述化合物和所述SEP被共同引入表达SEP-伴侣的哺乳动物细胞群体中，并测定由SEP:SEP-伴侣相互作用调节的相同疾病相关通路的调节。

鉴于本公开内容，本发明的各种其他方面和实施方案对于本领域技术人员来说将是明显的。

本说明书中提及的所有文献均通过引用整体并入本文。

在本文使用的“和/或”应被视为两个指定特征或组分中的每一个的特定公开，其带有或不带有另一个。例如，“A和/或B”应被认为是(i)A、(ii)B和(iii)A和B中每一种的特定公开，就像每一个在此单独列出。

除非上下文另有说明，否则上述特征的描述和定义不限于本发明的任何特定方面或实施方案，并且同样适用于所描述的所有方面和实施方案。

现在将通过举例并参照上面描述的附图和下面描述的表格的方式来说明本发明的某些方面和实施方案。

实施例

A)sORF文库衍生的SEP用以寻找新的表型相关靶的用途

为了组装用于人类细胞中的SEP表达和SEP表型筛选的预测的sORF文库，进行了对不一定含有常规启动子或基因调控结构的大小为<150个氨基酸的推定开放阅读框的基因组范围的搜索，并对物种间保守(interspecies conservation)进行另外的分析，作为非随机发生的指示。然后将这些存在于人类基因组中的候选sORF克隆到慢病毒表达载体中用于SEP表达。超过2000个推定的sORF被组装在表达文库中，用于人细胞中基于Protein-i的表型筛选。

针对Notch和NF-kB信号传导筛选sORF文库，以鉴定针对这些治疗上重要的通路有活性的sORF。这些筛选的方法如下：

1)NF-kB筛选

用包含位于对NF-kB转录因子的激活有响应的DNA元件下游的萤火虫萤光素酶基因的质粒构建体，并且用包含在对NF-kB无响应的“管家”DNA元件控制下的海肾萤光素酶(renilla luciferase)基因的质粒转染96孔板中的HEK293FT细胞。除了这些报告物构建体之外，含有肽编码序列(Protein-i插入物)(其子集是sORF序列)的表达质粒被共转染。转染后6小时，通过添加1ng/ml重组TNF-α(NF-kB通路的已知活化物)刺激细胞。包括了阳性(4G9)和阴性(CYLD)对照。刺激后24小时，使用商购可得的试剂系统测定每个孔的萤火虫和海肾萤光素酶活性，并在BMG Clariostar平板阅读器上读出发光。通过将NF-kB依赖性萤火虫萤光素酶活性对NF-kB非依赖性海肾萤光素酶活性标准化来分析数据。从这个筛选出现的数据如图1所示。

图1显示，尽管绝大多数sORF文库组分未能显示出对NF-kB信号传导的任何影响，但有几个sORF文库组分能够偏转对TNF-α的响应。这些sORF映射到以CYLD为特征的散射图区域，CYLD是已知的NF-kB信号传导调节物。令人感兴趣的是，也存在NF-kB信号传导中的一些假定的增强物，表明sORF可能是通路抑制物和增强物二者的丰富来源。

对来自以上筛选的候选命中的重新分析如图2所示，其显示了5个真实或有效的命中，其中两个是sORF(前缀为“S”)。

2)Notch筛选

用包含位于对CBF1转录因子(Notch的关键下游靶)的激活有响应的DNA元件下游的萤火虫萤光素酶基因的质粒构建体，并且用包含在对Notch无响应的“管家”DNA元件控制下的海肾萤光素酶基因的质粒转染96孔板中的HEK293FT细胞。除了这些报告物构建体之外，Notch信号传导通过共转染表达组成型活性形式的Notch即Notch胞内结构域或NICD的质粒而被激活。和对于NF-kB一样，包括sORF在内的肽编码载体(Protein-i载体)通过共转染其表达质粒来表达。转染后24小时，使用商购可得的试剂系统测定每个孔的萤火虫和海肾萤光素酶活性，并在BMG Clariostar平板阅读器上读出发光。通过将Notch依赖性萤火虫萤光素酶活性对Notch非依赖性海肾萤光素酶活性标准化来分析数据。从这个筛选出现的数据如图3所示。

如对于NF-kB筛选观察到的，图3显示，尽管绝大多数sORF文库组分未能显示出对Notch信号传导的任何影响，但有几个sORF文库组分能够偏转Notch响应。这些sORF倾向于以MAML1的显性阴性版本(表示为MAML)为特征的散布图的区域，MAML1是Notch信号传导的已知且非常强的异位抑制物。

对来自以上的筛选的候选命中的重新分析，显示了3个真实或有效的命中，其中一个是sORF(前缀为“S”)(图4)。

B)定制的cDNA衍生的SEP用以寻找新的表型相关靶的用途

使用可从NCBI或UniProt获得的表达数据库，描述了所有cDNA，以及因此(特别是在人细胞中)表达的蛋白质。蛋白组，在生物信息学上，被分解成SEP样长度的蛋白序列。在这种情况下，使用46个氨基酸的SEP。在可能的情况下，蛋白质结构域，例如由数据库鉴定的那些，例如Pfam(例如在Finn等人，Nucleic Acids Research(2014)Database Issue 42:D222-D230中描述的)被用于定义cDNA衍生的SEP的边界，使得最终文库包含对应于特定的注释的蛋白质结构域的表达克隆。利用基因合成技术，产生“cDNA衍生的SEP”的组，并利用常规基因克隆技术克隆到表达载体中。文库作为汇集的或排成阵列的文库用于使用上述测定格式筛选表型改变。

1)汇集的6-硫鸟嘌呤抗性筛选

对化疗药物6-硫鸟嘌呤的抗性先前已经被证明是一个相当严格的选择系统，其中一小组的蛋白能够介导该表型(参见Wang等人，Science 2014,343(6166):80-84用于比较)。我们试图利用这一系统来证明即使在如此严格的条件下，SEP可以如何用于鉴定表型调节蛋白。

用慢病毒载体中包含的SEP的汇集的文库转染HEK293细胞。收获、滴定病毒，并用SEP感染一批KBM7细胞。SEP转导的细胞文库随后暴露于实验确定杀死99.999％的KBM7细胞的浓度的6-硫鸟嘌呤。从池中分离携带抗性诱导SEP插入物的幸存者，扩增并收集基因组DNA。用PCR扩增SEP，并提交至下一代测序(Next Generation Sequencing)。在对数据进行生物信息学分析后，鉴定了介导对6-硫鸟嘌呤的抗性并可能作用于错配修复过程的命中SEP(图5)。

2)汇集的Hippo信号传导筛选

为了测量Hippo信号传导通路的活性，我们设计了与GFP表达关联的YAP/TEAD结合元件的转录报告物。如果YAP致癌信号传导是活性的，则用这样的构建体转导的细胞将显示强GFP表达，且如果信号传导受到抑制，则YAP表达低。

如同1)，我们用使用慢病毒的SEP文库转导了细胞池。靶细胞系HEK293A先前已经被证明显示依赖于细胞密度的差异Hippo信号传导。我们以低密度铺板细胞以诱导YAP活性(和随后的GFP表达)，并使用流式细胞术分离具有GFP低于平均表达的细胞群体和具有GFP平均表达的对照群体。如同1)，然后我们将两个样品都提交给下一代测序。比较对照集和YAP-低集中SEP序列的丰度，并鉴定富含YAP-低集，因此可能减少YAP致癌信号传导的SEP(图6)。

3)病变细胞筛选

cDNA衍生的SEP文库利用正常或病变组织的生物信息学表达谱生成。鉴定在例如癌症中与正常组织相比差异表达的那些cDNA衍生的SEP。例如，筛选被鉴定为在胰腺癌细胞中差异表达的cDNA衍生的SEP文库，以查看其是否影响K-Ras依赖性信号传导，因为K-Ras是这种癌症类型中的主要致癌驱动因素。

Claims

1.一种鉴定调节哺乳动物细胞的表型的靶蛋白的方法，所述方法包括将能够显示所述表型的体外培养的哺乳动物细胞群体暴露于SEP文库，在所述暴露后鉴定所述细胞群体中所述表型的改变，选择经历表型改变的所述细胞并鉴定改变所述细胞的所述表型的SEP，提供所述SEP并鉴定结合所述SEP的细胞蛋白，所述细胞蛋白是调节所述哺乳动物细胞的表型的靶蛋白。

2.根据权利要求1所述的方法，其中所述SEP文库包含人SEP。

3.根据权利要求1或2中任一项所述的方法，其中所述SEP文库包括sORF的肽产物。

4.根据权利要求1至3中任一项所述的方法，其中所述SEP是6-130个氨基酸的肽或编码所述肽的核酸序列。

5.根据权利要求1至4中任一项所述的方法，其中所述SEP是6至100个氨基酸的肽或编码所述肽的核酸序列。

6.根据前述权利要求中任一项所述的方法，其中所述细胞蛋白和所述SEP用在鉴定结合所述细胞蛋白并破坏SEP结合的配体的测定中。

7.一种鉴定与靶蛋白结合并置换或阻断所述SEP结合的化合物的方法，其中所述化合物调节哺乳动物细胞的表型，所述方法包括以下步骤：

iii.鉴定改变所述细胞的所述表型的SEP；

iv.鉴定结合所述SEP的细胞蛋白，所述细胞蛋白是调节所述哺乳动物细胞的所述表型的靶蛋白；

v.鉴定结合所述靶蛋白并置换或阻断所述SEP结合的化合物。

8.根据前述权利要求中任一项所述的方法，其中所述哺乳动物细胞的表型是与疾病相关通路相关的表型。

9.根据权利要求8所述的方法，其中所述疾病相关通路是经活化的细胞信号传导通路；和/或选自由以下组成的列表的一种：分化、转录活性、蛋白表达、抗感染、渗透性和增殖。

10.根据前述权利要求中任一项所述的方法，其中：(i)所述SEP文库包括多于一个单独的并可寻址的SEP；或(ii)所述SEP文库由编码SEP的多于一个单独的或可寻址的核酸表达。

11.根据权利要求1至9中任一项所述的方法，其中：(i)所述SEP文库包含汇集的多于一个SEP；或(ii)所述SEP文库由编码SEP的汇集的多于一个核酸表达。

12.一种鉴定在病变细胞中与对照细胞相比差异表达的sORF的方法，所述方法通过将能够显示改变的表型的体外培养的哺乳动物细胞群体暴露于所述差异表达的sORF的文库；在所述暴露后鉴定所述群体中显示所述表型的改变的细胞；鉴定改变所述细胞的所述表型的SEP；鉴定与所述靶蛋白结合并竞争或阻断所述SEP结合的测试化合物；提供所述鉴定的测试化合物。

13.根据权利要求12所述的方法，其中所述病变细胞选自癌细胞、自体反应性T细胞、发炎的软骨细胞和胰岛素抗性细胞。

14.一种SEP文库，包括(i)多于一个单独的并可寻址的SEP；或(ii)编码SEP的多于一个单独的或可寻址的核酸。

15.一种如本文所述的SEP文库。

16.权利要求1至13中任一项所述的方法中鉴定的SEP在用于鉴定与所述SEP相互作用的化合物的筛选方法中的用途。