CN111133100A

CN111133100A - 多路复用的受体-配体相互作用筛选

Info

Publication number: CN111133100A
Application number: CN201880051978.7A
Authority: CN
Inventors: 斯里拉姆·科苏里; 埃里克·琼斯
Original assignee: University of California
Current assignee: University of California
Priority date: 2017-07-05
Filing date: 2018-07-05
Publication date: 2020-05-08
Also published as: AU2018297258A1; EP3649236A1; US20200255844A1; JP7229223B2; KR102628446B1; KR20200024305A; WO2019010270A1; EP3649236A4; JP2020530281A; CA3068969A1; JP2023058651A

Abstract

本公开内容的方面涉及细胞群体，其中每个细胞包含：i)异源受体基因；ii)包含受体应答元件的诱导型报告物；其中所述报告物的表达依赖于由所述受体基因编码的受体的活性激活，并且其中所述报告物包含条形码，所述条形码包含对于异源受体基因独特的索引区；其中所述细胞表达不同异源受体，并且其中每个单一细胞表达一种特定异源受体的一个或多个拷贝和一种特定报告物的一个或多个拷贝。

Description

多路复用的受体-配体相互作用筛选

对相关申请的交叉引用

本申请要求2017年7月5日提交的美国临时专利申请No.62/528,833的优先权权益，其在此通过引用完整并入。

背景

本发明在国家科学基金会授予的1555952下在政府支持下完成。政府拥有本发明的某些权利。

1.发明领域

本公开内容涉及医学和药物发现领域。

2.相关技术的描述

G蛋白偶联受体(GPCR)是最重要的药物靶标类别之一，目前市售的药物的约三分之一通过GPCR起作用。G蛋白偶联受体(GPCR)占目前药物靶标的50-60％。此种膜蛋白家族在当今的药物发现中起着至关重要的作用。经典地，已经开发了许多基于GPCR的药物用于诸如心血管、代谢、神经变性性、精神病和肿瘤疾病的不同适应症。

此外，目前有很少的(若有的话)允许在单一测定平台中有效且高效大规模筛选数千甚至数万种受体的方法。本领域中对受体和配体相互作用筛选的改善有大量需要。

发明概述

本公开内容涉及可以用于测定特异性受体激活的核酸、载体、细胞、病毒颗粒和方法。因此，某些实施方案涉及核酸，其包含i)异源受体基因；和ii)包含受体应答元件的诱导型报告物；其中报告物的表达依赖于由受体基因编码的受体的活性激活，并且其中报告物包括条形码，所述条形码包含对于异源受体基因而言独特可鉴定的索引区。其它方面涉及包含本公开内容的核酸的载体。其它方面涉及包含异源受体基因的载体。在多核苷酸的背景中，术语“异源”是指已经通过本领域已知的或本文所述的基因转移方法转移到细胞的基因或多核苷酸；若外源衍生的序列保留在后代细胞中，则此类细胞的后代也可以称为含有异源核酸序列。细胞可以已经含有与异源受体基因相同的内源基因，或者细胞可以缺乏与异源基因相关或相同的任何内源基因。术语“异源细胞”或“宿主细胞”是指有意含有异源核酸序列的细胞。

术语“编码”在其应用于多核苷酸时是指在以下情况中称为“编码”多肽的多核苷酸：若处于其天然状态或通过本领域技术人员公知的方法操作时，其可以被转录和/或翻译以产生多肽和/或其片段的mRNA。反义链是此类核酸的互补物，并且可以从其推导编码序列。

在一些实施方案中，载体还包含诱导型报告物；其中报告物的表达依赖于由受体基因编码的受体的活性激活，并且其中报告物包含条形码，该条形码包含对于异源受体基因独特的索引区。其它方面涉及载体，其包含含有条形码的诱导型报告物。

其它方面涉及细胞群体，其中每个细胞包含：i)异源受体基因；ii)包含受体应答元件的诱导型报告物；其中报告物的表达依赖于由受体基因编码的受体的活性激活，并且其中报告物包括条形码，该条形码包含对于异源受体基因独特的索引区；并且其中细胞表达不同异源受体，并且其中每个单一细胞表达一种特定异源受体的一个或多个拷贝和一种特定报告物的一个或多个拷贝。例如，细胞群体可以至少包含具有第一受体基因和第一诱导型报告物的第一细胞、具有第二受体基因和第二诱导型报告物的第二细胞、具有第三受体基因和诱导型报告物的第三细胞、具有第四受体基因和第四诱导型报告物的第四细胞...和具有第1000受体基因和第1000诱导型报告物的第1000细胞...等。细胞群体可以包含细胞，每个细胞仅含有一种受体和包含条形码的相关诱导型报告物，所述条形码包含可以用于鉴定在同一细胞中激活的异源受体的索引区。细胞群体可以包含至少或至多5、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4500、5000、6000、7000、8000、9000、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹或10¹⁰个细胞(或其中任何可导出的范围)，其代表不同受体基因及其相关的诱导型报告物的数目。此外，在一些实施方案中，诱导型报告物产生表达的核酸，其独特地鉴定在该细胞中表达的异源受体基因。不同受体基因可以是属于一类受体的受体，例如嗅觉受体、激素受体、肾上腺素受体、药物应答受体等。因此，细胞群体可以包含表达一种且仅一种受体基因(尽管它可以从同一基因的多个拷贝表达)和一种且仅一种相关的诱导型报告物(尽管可以存在有诱导型报告物的多个拷贝)的细胞。在一些实施方案中，细胞各自表达相同受体基因的一种变体。考虑了单次筛选可以涉及本文讨论的细胞/受体的数目。这在规模上不同于其它筛选，其为了具有本公开内容提供的一些实施方案的量级可以涉及连续采用筛选。

其它实施方案涉及细胞，其包含i.)异源受体基因；和ii.)包含受体应答元件的诱导型报告物；其中报告物的表达依赖于由受体基因编码的受体的活性激活，并且其中报告物包含条形码，所述条形码包含对于异源受体基因独特的索引区。在一些实施方案中，异源基因的表达是“可持续的”，意指异源基因的表达保持于一定水平，所述水平在较晚期细胞前的1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50次传代或更多(或其中任何可导出的范围)或在那些较晚期细胞前时间点的1、2、3、4、5、6、7天和/或1、2、3、4、5周和/或1、2、3、4、5、6、7、8、9、10、11、12个月(或其中任何可导出的范围)的细胞的表达水平的约或至少约10、20、30、40、50、60、70、80、90、或100％内。在某些实施方案中，细胞表现出待测试的受体的可持续表达。在一些实施方案中，细胞以在1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50次传代或更多(或其中可导出的任何范围)之后以第一次测量的水平的2x内的水平表达受体。

在一些实施方案中，受体基因编码G蛋白偶联受体(GPCR)。在一些实施方案中，报告物在信号转导时由激活的受体蛋白诱导。在一些实施方案中，受体蛋白的激活包括受体与配体的结合。在一些实施方案中，受体基因还包含一种或多种另外的编码辅助多肽的多核苷酸。在一些实施方案中，辅助多肽包含可选择或可筛选蛋白。在一些实施方案中，辅助多肽包含蛋白质或肽标签。在一些实施方案中，辅助多肽包含转录因子。在一些实施方案中，辅助多肽包含一个或多个运输标签。在一些实施方案中，辅助多肽包含两个运输标签。在一些实施方案中，辅助多肽包含至少、至多或正好1、2、3、4或5(或其中任何可导出的范围)个运输标签。在一些实施方案中，运输标签包括Lucy和/或Rho运输标签。在一些实施方案中，运输标签包含信号肽。在一些实施方案中，信号肽是由内源蛋白体内切割的可切割肽。在本文中描述了示例性辅助多肽。在一些实施方案中，受体基因编码包含受体基因和辅助多肽的融合蛋白。在一些实施方案中，融合蛋白在受体基因和辅助多肽之间包含蛋白酶位点。

在一些实施方案中，报告物由GPCR激活时的信号转导诱导。在一些实施方案中，受体应答元件包括以下中的一种或多种：cAMP应答元件(CRE)、活化T细胞核因子的应答元件(NFAT-RE)、血清应答元件(SRE)和血清响应因子应答元件(SRF-RE)。在一些实施方案中，受体应答元件包含由辅助多肽转录因子结合的DNA元件。在一些实施方案中，辅助多肽转录因子包含反向四环素控制的转录激活物(rtTA)，并且受体应答元件包含四环素应答元件(TRE)。

在一些实施方案中，受体应答元件包括CRE。在一些实施方案中，CRE包含tgacgtca(SEQ ID NO：1)的至少5个重复。在一些实施方案中，CRE包含SEQ ID NO：1的至少、至多或正好3、4、5、6、7、8、9或10个重复(或其任何可导出的范围)。在一些实施方案中，CRE包括

(SEQ ID NO：2)或与SEQ ID NO：2或其片段，例如，SEQ ID NO：2的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、225250、275、300、301、302、304、305、306、307、308、309、310、312、313、314、或315个连续核酸(或其任何可导出的范围)的片段至少、至多或正好70、75、80、85、90、95、96、97、98、或99％相同的序列。

在一些实施方案中，GPCR是嗅觉受体(OR)。OR是本领域已知的并且在本文中进一步描述。在一些实施方案中，受体基因包括核激素受体基因。在一些实施方案中，受体基因包含受体酪氨酸激酶基因。在一些实施方案中，受体包括肾上腺素受体。在一些实施方案中，肾上腺素受体包含β-2肾上腺素能受体。在一些实施方案中，受体包含本文所述的受体。在一些实施方案中，受体是跨膜受体。在一些实施方案中，受体是胞内受体。

在一些实施方案中，载体是病毒载体。在另外的实施方案中，载体是本领域已知的和/或本文描述的载体。在一些实施方案中，载体包括慢病毒载体。

在一些实施方案中，受体基因包含组成性启动子。示例性组成性启动子包括CMV、RSV、SV40等。在一些实施方案中，受体基因包含条件启动子。如本文所用，术语“条件启动子”是指可通过添加诱导剂来诱导和/或通过改变温度(例如温度变化)或添加分子(例如活化剂、共活化剂或配体)从“关闭”状态转变为“开启”状态或从“开启”状态转变为“关闭”的启动子。条件启动子的实例包括“Tet-on”或“Tet-off”系统，其可用于在细胞中诱导表达蛋白质。

在一些实施方案中，报告物包含表达的RNA。在一些实施方案中，报告物包括至少10个核酸的条形码。条形码的长度可以是，是至少或是至多3、4、5、6、7、8、9、10、12、14、16、18、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多个核酸(或其中任何可导出的范围)。在一些实施方案中，报告物包含或还包含开放阅读框(ORF)；其中基因包含3’非翻译区(UTR)。在一些实施方案中，条形码位于基因、报告物或其它核酸区段的3’UTR中，诸如例如对于编码荧光蛋白的基因。在一些实施方案中，ORF编码可选择或可筛选蛋白。在一些实施方案中，ORF编码荧光蛋白。在一些实施方案中，ORF编码萤光素酶蛋白。

在一些实施方案中，受体基因在5’和/或3’末端的侧翼有绝缘子序列。在一些实施方案中，报告物在5’和/或3’末端的侧翼有绝缘子序列。在一些实施方案中，报告物仅在5’末端或仅在3’末端有侧翼。在一些实施方案中，报告物在3’末端侧翼没有绝缘子。在一些实施方案中，报告物在5’末端侧翼没有绝缘子。在一些实施方案中，受体基因仅在5’末端或仅在3’末端有侧翼。在一些实施方案中，受体基因在3’末端侧翼没有绝缘子。在一些实施方案中，受体基因在5’末端侧翼没有绝缘子。

在一些实施方案中，绝缘子包含cHS4绝缘子。在一些实施方案中，绝缘子包含

(SEQ ID NO：3)或与SEQ ID NO：3或其片段，例如，SEQ ID NO：3的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、205、210、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、或231个连续核酸(或其任何可导出的范围)的片段至少、至多或正好70、75、80、85、90、95、96、97、98或99％相同的序列。

在一些实施方案中，绝缘子是CTCF绝缘子(其由CTCF阻遏物调节)，或gypsy绝缘子(其在果蝇的gypsy反转录转座子中找到)。

在一些实施方案中，载体包含第二、第三、第四或第五条形码。在一些实施方案中，第二、第三或第四条形码中的至少一个包括对于以下一项或多项独特的索引区：测定条件或微板上的位置。测定条件可包括添加特定的配体，添加配体或配体的变体的特定浓度，或代谢物、小分子、多肽、抑制剂、阻遏物或核酸的浓度或变体。在一些实施方案中，可以使用另外的条形码来鉴定细胞置于微板上的位置，从而可鉴定在该特定位置处的测定条件并将它们与条形码联系。

本公开内容的其它方面涉及包含一种或多种本公开内容的载体或核酸的病毒颗粒。

本公开内容的又一些方面涉及包含本公开内容的核酸、载体或病毒颗粒的细胞。另外的实施方案涉及包含本公开内容的载体的多个拷贝的细胞。在一些实施方案中，细胞包含载体的至少三个拷贝。在一些实施方案中，细胞包含载体的至少四个拷贝。在一些实施方案中，细胞包含载体的至少、至多或正好3、4、5、6、7、8、9、10、12、14、16或20个拷贝(或其中任何可导出的范围)。

在一些实施方案中，本公开内容的一种或多种细胞还包含一种或多种编码一种或多种辅助蛋白的基因。在一些实施方案中，一种或多种辅助蛋白包含Gα亚基、Ric-8B、RTP1L、RTP2、RTP3、RTP4、CHMR3和RTP1S中的一种或多种。在一些实施方案中，一种或多种辅助蛋白包含抑制蛋白(arrestin protein)。在一些实施方案中，一种或多种辅助蛋白包含Gi或Gq蛋白。在一些实施方案中，抑制蛋白与蛋白酶融合。在一些实施方案中，一种或多种辅助蛋白包含伴侣蛋白、G蛋白和鸟嘌呤核苷酸交换因子中的一种或多种。在一些实施方案中，辅助蛋白整合到细胞的基因组中。如本申请的实施例所示，与瞬时表达相比，辅助因子的稳定整合提供了令人惊讶的良好结果。在一些实施方案中，瞬时表达辅助蛋白。在一些实施方案中，细胞包含编码一种或多种辅助因子基因的一种或多种外源核苷酸的稳定整合，其中辅助因子基因包括RTP1S、RTP2、Gα-亚基(NCBI基因ID：2774)或Ric-8b(NCBI基因ID237422)。

在一些实施方案中，细胞还包含从异源受体基因表达的受体蛋白。在一些实施方案中，受体蛋白在胞内定位。在一些实施方案中，细胞缺乏编码与异源受体基因至少80％相同的蛋白质的内源基因。在一些实施方案中，细胞缺乏编码蛋白质的内源基因，所述蛋白质与异源受体基因是至少、至多或正好65、70、75、80、85、90、95、96、97、98、99或100％相同的(或其中任何可导出的范围)。在一些实施方案中，受体基因整合到细胞的基因组中。在某些实施方案中，诱导型报告物整合到细胞的基因组中。在一些实施方案中，瞬时表达受体基因和/或诱导型报告物。

在一些实施方案中，受体基因和诱导型报告物是遗传上连接的。在一些实施方案中，受体基因和诱导型报告物是遗传上未连接的。在一些实施方案中，受体基因和诱导型报告物插入细胞的基因组中，并且彼此在至少10、50、100、200、500、1000、2000、3000、5000或10000个碱基对(bp)(或其中任何可导出的范围)内或以至少10、50、100、200、500、1000、2000、3000、5000或10000个碱基对(bp)(或其中任何可导出的范围)隔开。在进一步的实施方案中，受体基因和诱导型报告物在分开的遗传元件上，例如分开的染色体和/或染色体外分子上。

在一些实施方案中，整合的受体基因和/或诱导型报告物通过靶向整合整合到细胞基因组中。在一些实施方案中，整合的受体基因和/或诱导型报告物随机整合到基因组中。在一些实施方案中，随机整合包括受体基因和/或诱导型报告物的转座。在一些实施方案中，细胞包含受体基因和/或诱导型报告物的至少2个拷贝。在随机整合的其它方法中，可以将DNA导入细胞中并允许通过重组随机整合。在一些实施方案中，整合对H11安全港基因座进行。在一些实施方案中，整合是对H11安全港基因座的靶向整合。

在一些实施方案中，受体基因包含组成性启动子。在一些实施方案中，受体的表达是组成性的。在一些实施方案中，受体基因包含条件启动子。在一些实施方案中，受体的表达是条件性的或诱导型的。在一些实施方案中，异源受体基因与诱导型启动子可操作偶联。在一些实施方案中，可诱导或条件启动子是四环素应答元件。

在一些实施方案中，异源受体的表达水平处于生理学相关表达水平。术语“生理学相关表达水平”是指与细胞中受体的内源表达水平相似或相等的表达水平。在其它实施方案中，表达水平可以低于生理学相关水平。考虑了在一些实施方案中，对条形码进行测序的灵敏性允许表达水平低于灵敏性较小的测定法需要的表达水平。在一些实施方案中，RNA转录物的水平是，是至少或是至多约10、10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹或10¹⁰或其中可导出的任何范围。

在一些实施方案中，一种或多种细胞是冷冻的。在一些实施方案中，细胞是哺乳动物细胞。在一些实施方案中，细胞是人胚胎肾293T(HEK293T)细胞。

其它方面涉及测定系统，其包含本文所述的细胞或细胞群体。

其它方面涉及用于筛选配体和受体结合的方法，所述方法包括：使本公开内容的一种或多种细胞与配体接触；检测一种或多种报告物；并且测定一种或多种报告物的身份；其中报告物的身份指示结合的受体的身份。方法可涉及在某个时间段内筛选一些数目的受体和/或一些数目的配体。在一些实施方案中，单个筛选涉及用约、约至少、或约至多5、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4500、5000、6000、7000、8000、9000、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、或10¹⁰种配体或潜在配体(或其中可导出的任何范围)在约2、3、4、5、6、7天和/或1、2、3、4、5周和/或1、2、3、4、5、或6个月(和其中可导出的任何范围)中测定约、至少约、或至多约10、10²、10³、10⁴、10⁵、10⁶、10⁷’、10⁸、10⁹、或10¹⁰种不同细胞和/或受体(或其中可导出的任何范围)，其中当使细胞与候选配体接触时开始筛选，并且当受体通过其测序的条形码鉴定时结束筛选。

在一些实施方案中，在细胞群体中表达至少300种不同的异源受体。在一些实施方案中，在细胞群体中表达2、5、10、50、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000或更多种受体。在一些实施方案中，细胞群体包含至少或至多10⁴、10⁵、10⁶、10⁷’、10⁸、10⁹、10¹⁰、10¹¹、或10¹²个细胞(或其中可导出的任何范围)。在一些实施方案中，在一种组合物中共混合细胞群体。组合物可以是悬浮的细胞组合物或分配的细胞组合物。在一些实施方案中，将细胞群体粘附于基底，例如细胞培养皿。在一些实施方案中，在基底的一个孔内或一个细胞培养皿内含有细胞群体。

在一些实施方案中，测定报告物的身份包括从细胞分离核酸。在一些实施方案中，核酸包含RNA。在一些实施方案中，方法还包括对分离的RNA进行逆转录酶反应以制备cDNA。在一些实施方案中，方法还包括扩增分离的核酸。在一些实施方案中，方法还包括对分离的核酸进行测序。在一些实施方案中，在裂解物中进行逆转录酶反应。在一些实施方案中，检测一种或多种报告物包括检测来自一个或多个细胞的荧光水平。在一些实施方案中，方法还包括分配细胞。在一些实施方案中，将细胞分配到96孔细胞培养板上。在一些实施方案中，将一个或多个细胞冷冻，并且方法还包括融化冷冻的细胞。

本公开内容的某些方面涉及用于筛选配体和受体结合的方法，其包括：使细胞群体与配体接触；其中细胞群体的每个细胞包含：i)异源受体基因；和ii)包含受体应答元件的诱导型报告物；其中报告物的表达依赖于由受体基因编码的受体的活性激活，并且其中报告物包括条形码，该条形码包含对于异源受体基因独特的索引区；并且其中细胞群体表达至少两种与异源受体基因不同的受体，并且其中每个单一细胞具有一种特定异源受体的一个或多个拷贝和一种特定报告物的一个或多个拷贝；检测一种或多种报告物；并且测定一种或多种报告物的身份；其中报告物的身份指示结合的受体的身份。

方法还包括在细胞中表达筛选中鉴定的任何受体。受体可以是纯化的或分离的。也可以克隆一种或多种经鉴定的受体。然后，可以将它转染到不同宿主细胞中进行表达。

其它方面涉及包含至少两种不同载体的载体文库，其中载体包含不同异源受体基因和不同诱导型报告物。载体可以是本文描述的载体。其它方面涉及包含本公开内容的细胞群体的细胞文库。其它方面涉及包含至少两种本公开内容的病毒颗粒的病毒文库，其中病毒颗粒包含不同异源受体基因和不同诱导型报告物。

其它方面涉及用于制备包含受体蛋白的细胞文库的方法，该方法包括：i)在细胞中表达本公开内容的核酸或载体，或ii)用本公开内容的病毒颗粒感染细胞；其中细胞表达不同异源受体，并且其中每个单一细胞具有一种特定异源受体的一个或多个拷贝和一种特定报告物的一个或多个拷贝。每个细胞可具有异源受体基因和/或诱导型报告物的至少、至多或正好1、2、3、4、5、6、7、8、9或10个拷贝(或其中任何可导出的范围)。在某些实施方案中，细胞包含编码受体基因和/或诱导型报告物的核酸的至少2、3、4、5、6、7、8、9或10个拷贝(或其中任何可导出的范围)。

其它方面涉及试剂盒，其包含如本文所述的载体、细胞、核酸、文库、引物、探针、测序试剂和/或缓冲液。

其它方面涉及核酸，其包含：i)与诱导型启动子可操作偶联的异源受体基因；和ii)包含受体应答元件的报告物；其中所述报告物的表达依赖于由异源受体基因编码的受体的活性激活，并且其中报告物包含条形码，所述条形码包含对于异源受体基因独特的索引区。在一些实施方案中，其包含核酸的至少2个拷贝至至少6个拷贝。

术语“等同核酸”是指具有与核酸或其互补物的核苷酸序列具有某种同源性程度的核苷酸序列的核酸。双链核酸的同源物意图包括具有与或与其互补物具有某种同源性程度的核苷酸序列的核酸。一方面，核酸的同源物能够与核酸或其互补物杂交。本公开内容的核酸还包括等同核酸。

多核苷酸或多核苷酸区域(或多肽或多肽区域)可以与另一序列具有至少、至多或正好60％、65％、70％、75％、80％、85％、90％、95％、98％或99％(或其中任何可导出的范围)的“序列同一性”或“同源性”，指当比对时，在比较两个序列时该百分比的碱基(或氨基酸)相同。可以使用本领域已知的软件程序，例如在Ausubel等人编，(2007)CurrentProtocols in Molecular Biology中描述的那些来测定此种比对和百分比同源性或序列同一性。

生物学等同的多核苷酸是具有规定的百分比同源性并编码具有相同或相似生物活性的多肽的那些多核苷酸。

鉴于测量的性质或精度，“约”和“大约”通常应当指所测量的量的可接受的误差度。典型地，示例性误差度在给定值或值范围的20百分比(％)以内，优选在10％以内，更优选在5％以内。或者并且特别是在生物系统中，术语“约”和“大约”可以表示在给定值的1个数目级内，优选地在5倍内并且更优选地在2倍内的值。在一些实施方案中，考虑了本文所讨论的数值可以与术语“约”或“大约”一起使用。

如本文所用，术语“包含”意图指组合物和方法包含所列举的要素，但不排除其它要素。当用于定义组合物和方法时，“基本上由...组成”应指排除对于所述目的而言对组合具有任何实质意义的其它要素。在本公开内容的药物组合物的背景中，“基本上由...组成”意图包含所有列举的活性剂，并且排除任何其它非列举的活性剂，但是不排除组合物中不作为活性成分的其它组分。因此，基本上由如本文所定义的要素组成的组合物将不排除来自分离和纯化方法的痕量污染物和药学上可接受的载体，例如磷酸盐缓冲盐水、防腐剂等。“由...组成”应当指排除其它成分的超过痕量的要素和产生组合物或实现意图结果的用于施用本发明的组合物的实质性方法步骤或工艺步骤。由这些过渡术语中的每个定义的实施方案在本发明的范围内。

当涉及基因产物或功能性蛋白质时，术语“蛋白质”、“多肽”和“肽”在本文可互换使用。

当应用于细胞时，术语“接触”和“暴露”在本文中用于描述将试剂递送至靶细胞或与靶细胞或靶分子直接并置的过程。

在权利要求书和/或说明书中，与术语“包含”结合使用时，词语“一个”或“一种”的使用可以表示“一个/种”，但它也与“一个/种或多个/种”、“至少一个/种”和“一个/种或超过一个/种”的含义一致。

贯穿本申请，术语“约”用于表示值包括用于测定该值的装置或方法的误差的标准偏差。

在权利要求书中使用术语“或”用于指“和/或”，除非明确指出仅指备选方案或者备选方案互相排斥，尽管本公开内容支持仅指备选方案以及“和/或”的定义。如本文所用，“另一”可以表示至少第二或更多。

如本说明书和权利要求书中所使用，词语“包含”(以及包含的任何形式)、“具有”(以及具有的任何形式)、“包括”(以及包括的任何形式)或“含有”(以及含有的任何形式)是包括在内的或开放式的，并且不排除其它未列举的要素或方法步骤。可以设想，用术语“包含”阐述的任何实施方案也可以用词语“由...组成”替代“包含”。

考虑了可以就本文描述的任何其它方法或组合为而言来实施本文描述的任何方法或组合为，并且可以组合不同的实施方案。

可基于本文所述方法采用一种或多种组合物的使用。可在根据本文所述的方法制备用于治疗的药物中采用一种或多种组合物的使用。贯穿本申请讨论了其它实施方案。就本公开内容的一个方面而言讨论的任何实施方案也适用于本公开内容的其它方面，反之亦然。实施例部分中的实施方案应理解为适用于本文所述技术的所有方面的实施方案。

根据以下详细描述，本发明的其它目的、特征和优点将变得明显。然而，应当理解，尽管详细描述和具体实施例指示本发明的优选实施方案，但是这些描述和具体实施例仅作为示例给出，这是因为在本发明的精神和范围内的各种变化和修改根据此种详细描述对于本领域技术人员而言将是明显的。

附图简述

以下附图形成本说明书的一部分，并且被包括在内以进一步说明本发明的某些方面。可以通过结合本文中呈现的具体实施方案的详细描述参考这些附图中的一幅或多幅更好地理解本发明。

图1.多路复用报告物方案的概述。图详述了多路复用方案。图详述了OR文库的添加条形码的策略。将每个OR连接到报告物基因的3’UTR中的独特条形码。将Mukku3a细胞用每个OR克隆整合，合并，并接种以进行气味物诱导。诱导后，对添加条形码的转录物进行测序和定量以测定每种气味物受体对的相对亲和力。

图2.诱导型细胞系Luc/RNA和引导筛选。a)显示了稳定细胞系的诱导型Luc b)显示了稳定细胞系的诱导型RNA a)在Mukku3a细胞中通过cAMP应答性萤光素酶遗传报告物测量的用已知配体的个别、稳定OR激活。b)在Mukku3a细胞中通过对添加条形码的遗传报告物的Q-RTPCR测量的用已知的配体的个别、稳定OR激活。

图3.组合的对分开的遗传报告物。a)分开对组合的示意图b)分开对组合的瞬时数据。a)用于分开或一起编码OR和报告物的质粒构造。b)在分开构造和组合构造中，通过cAMP应答性萤光素酶遗传报告物测量的用已知配体的瞬时OR激活(MOR42-3和MOR9-1)的比较。

图4.着陆垫。a)Bxb1的示意图b)整合效率c)B2和OR整合Luc。a)Bxb1重组到着陆垫中的示意图。HEK293T细胞经预工程化改造以含有单拷贝的着陆垫安全港基因座H11(Mukku1a细胞)。着陆垫含有Bxbl重组酶识别位点attp。重组酶和含有相应attb识别位点的质粒的共表达导致单一不可逆的位点特异性整合事件。此种整合策略实现单罐中的异质文库的克隆整合。b)使用流式细胞术评估Bxb1着落垫的整合效率。用表达重组酶的质粒和在整合时条件性表达mCherry的质粒以及仅用mCherry质粒共转染细胞。多次传代后，7-8％的用重组酶转染的细胞也是荧光的，并且没有不具有重组酶的细胞是荧光的。c)将编码OR(MOR42-3)和β-2肾上腺素能受体(ADRB2)的组合遗传报告物整合到着陆垫中。两者均由已知的激动剂诱导，并且通过萤光素酶测定法测量遗传报告物的激活。对ADRB2而非对MOR42-3观察到剂量依赖性激活。

图5.可诱导方案。a)示意图b)瞬时和整合性诱导。a)将Mukku1a细胞转导以组成性表达反向四环素转录激活物(m2rtTA)，并将驱动OR表达的组成性启动子替换为四环素调节的启动子。(将四环素应答性GFP整合以确认在添加多西环素的情况下在着陆垫中的表达)。b)对诱导型组合遗传报告物筛选OR激活，在Mukku2a细胞的着陆垫中瞬时和整合。当用气味物刺激时在存在dox的情况下观察到MOR42-3的瞬时激活，但在着陆垫中整合时未观察到。b部分的每个浓度上方的条形表示-Dox(左条形)和+Dox(右条形)。

图6.拷贝数。a)转座子方案b)组成性转座子c)诱导型转座子d)QPCR。a)转座子的示意图。PiggyBac转座酶切除侧翼有中间末端重复的组合遗传报告物。然后将序列的多个拷贝插入整个基因组的TTAA基因座处。b)当在组成性表达下在Mukku1a细胞中转座时，MOR42-3没有表现出对配体的剂量应答性萤光素酶产生。c)当在诱导型表达下在Mukku2a中转座时，MOR42-3在多西环素存在下对配体表现出稳健的剂量应答性萤光素酶产生。c部分的每个浓度上方的条形表示-Dox(左条形)和+Dox(右条形)。d)通过基因组DNA的QPCR对于三种不同OR的转座测定转座子的拷贝数。通过相对于着陆垫中克隆整合的组合遗传报告物比较转座子的Cq来测定绝对拷贝数。d部分中的条形表示(从左到右)对照、MOR203-1、MOR9-1和Olfr62。

图7.a)瞬时AF b)克隆选择。a)在存在或不存在辅助因子RTP1S和RTP2的情况下，通过组合的萤光素酶遗传报告物测量的用已知配体的瞬时OR激活(Olfr62和MOR30-1)的比较。b)将Mukku2a细胞用诱导型表达下调节的四种辅助因子(RTP1S、RTP2、Gαolf和Ric8b)转座。分离个别克隆，并在功能上评估辅助因子表达。通过分开的萤光素酶遗传报告物对克隆测定用已知配体的瞬时OR激活(Olfr62和OR7D4)。对于下游应用，选择对典型形态和生长速率两者均表现出稳健激活的克隆(Mukku3a)。

图8.着陆垫整合。

图9.基因组整合的合成回路允许筛选哺乳动物嗅觉受体激活。a)用于在工程化HEK293T细胞系中稳定OR表达和功能的合成回路的示意图。b)以变化的拷贝数并在组成性或诱导型表达下瞬时或基因组整合的表达受体的MOR42-3报告物激活。c)在具有/不具有辅助因子的情况下并瞬时表达/整合到工程化细胞系中的Olfr62报告物激活。d)整合到工程化细胞系中的OR报告物激活的剂量-应答曲线。

图10.嗅觉受体-气味物相互作用的大规模多路复用筛选。a)用于创建OR报告物细胞系文库和用于多路复用筛选的示意图。b)当用瞬时或基因组整合的萤光素酶测定法或合并的RNA-seq测定法进行测试时，比较MOR30-1和Olfr62报告物激活。c)来自筛选的所有相互作用的热图，通过气味物和受体应答的相似性聚簇并通过触发报告物活性的最低浓度着色。d)对四种OR(黑色)鉴定的命中，其定位到我们的气味物组的化学空间的PCA投影(灰色)上。

图11.工程化改造HEK293细胞以进行稳定的功能性OR表达。a)来自从瞬时转染或在H11基因组基因座处以单拷贝整合的诱导驱动受体表达的MOR42-3激活的比较。B.在组成性或诱导型表达下从具有在基因组中以多个拷贝整合的MOR42-3的细胞的激活。c)相对于单个拷贝整合子，对三个转座OR用qPCR测定的相对受体/报告物DNA拷贝数。d)与或不与辅助因子(AF)Gαolf、Ric8b、RTP1S和RTP2共转染的MOR30-1和Olfr62激活(分别用癸酸和2-香豆冉酮刺激)。e)细胞系生成，用于稳定的辅助因子表达。转染后，分离克隆，并筛选需要辅助因子来功能性表达的OR、Olfr62和OR7D4的激活。深灰色条形表示选择用于进一步实验的克隆。

图12.用于OR激活的多路复用遗传报告物的设计。a)用于整合的含有OR表达盒和遗传报告物的载体示意图。b)在分开的质粒上或一起瞬时共表达受体盒的细胞中的MOR42-3报告物激活。c)与Promega的pGL4.19CRE增强子相比工程化CRE增强子的倍数激活。d)在具有或不具有CRE增强子上游的DNA绝缘子的情况下诱导诱导型OR启动子时遗传报告物的基础激活。

图13.工程化细胞系中合成嗅觉激活回路的示意图。用于OR的表达/信号传导和添加条形码的报告物系统的表达成分的完整图示，如图9中所示以及实施例2中描述。受体表达由Tet-On系统控制。多西环素诱导后，OR在两种外源表达的伴侣蛋白RTP1S和RTP2的协助下在细胞表面上表达。一旦气味物激活，g蛋白信号传导触发cAMP产生。天然OR Gα亚基，Golf及其相应的GEF，Rjc8b的转基因表达增强信号传导。cAMP导致激酶PKA激活，该激酶PKA使转录因子CREB磷酸化，从而导致添加条形码的报告物的表达。

图14.多重的气味物应答的引导规模重演。a)热图显示了40种合并的受体对9种气味物和2种混合物的应答。相互作用通过遗传报告物的对数2倍激活着色。先前鉴定的气味物相互作用(Saito等人，2009)以黄色框出。b)在5种浓度下针对OR文库筛选的气味物或福司柯林(腺苷酸环化酶刺激剂)的剂量-应答曲线。已知与气味物相互作用的OR的曲线着色。在我们的测定法中，用福司可林刺激没有显示OR之间的实质性差异活性。

图15.文库呈现。OR文库中个别OR的呈现。a)作为文库分数的每种OR的频率，如由与DMSO温育的每种报告物的相对激活测定。b)文库中每种OR的频率之间的关系和所有条件的报告物激活的生物学重复测量之间的平均变异系数。

图16.大规模多路复用筛选的可再现性。a)直方图显示了用DMSO刺激时OR文库的变异系数的分布。b)直方图显示了在所有测定条件下OR文库的变异系数的分布。c)测定的每个96孔板中含有的对照气味物的剂量-应答曲线。每种颜色代表不同的板。

图17.高通量测定数据的显著性和倍数变化。a)错误发现率(FDR)——根据具有负二项式假设的广义线性模型计算，然后进行多假设校正——针对每种OR-气味物相互作用的倍数变化作图。虚线代表1％FDR，用于鉴定相互作用的保守截留。b)为正交个别萤光素酶测定颜色选择的相互作用子集指示是否检测到相互作用。在通过1％FDR的相互作用中，28种中的21种在正交追踪测定法中也显示相互作用。

图18.瞬时正交系统中筛选的重演。使用萤光素酶读数对表达单一嗅觉受体的细胞系进行化学物质的二次筛选。每个图显示了不表达OR但用气味物处理的阴性对照细胞系的行为(黑线)，以及表达特定OR的细胞系的行为。另外，绘制了高通量测序筛选(标记为Seq)的数据以供参考。

图19.与先前筛选的气味物-受体对的测定对应性。a)针对先前由Saito等人测试的540种气味物-OR相互作用的倍数诱导绘制的FDR。点由Saito等人(2009)鉴定的相互作用的EC50着色。灰点表示在先前筛选中未鉴定的相互作用。比较瞬时与整合萤光素酶测定法揭示了在某些情况下，可能由于CRE驱动的萤光素酶和受体的DNA拷贝数较低，因此整合系统需要较高浓度的气味物来实现显著激活。由于测定的最高气味物浓度为1mM，因此在此筛选中可能尚未检测到低亲和力相互作用。b)测定法中的FDR，与由来自多路复用筛选的倍数激活着色的先前筛选的命中的EC50相关。

图20.受体的气味物应答的聚簇。在这里，我们在与图20相同的坐标上绘制了任何命中(黑色)相对于其它测试化学物质(灰色)的位置。这提供了相对于较大的化学物质空间，给定OR的活性的宽度的显现。

图21深度突变扫描概述。

图22.文库活性的分布。

图23.在0.625uM异丙肾上腺素的β2的变异活性。

图24.与个别测定的突变体比较

图25.配体相互作用位点。

图26.k均值聚簇。

图27.A)Bxbl重组在测试背景中如何起作用以确保每个细胞仅插入一个构建体(细胞将仅是红色或绿色)的图。B)两种颜色测试的流动结果。C)KO或野生型细胞中，用B2激动剂异丙肾上腺素刺激时报告物的活性。D)当在单拷贝基因座中添加转基因B2时，我们可以恢复读取B2活性的能力。E)也可以降低RNA水平，并且通过绝缘子元件改善倍数激活。

图28.插入H11基因座中的B2构建体的图。

发明详述

依靠蛮力手段的化学筛选具有重大的财务成本、缩放问题，并且在某些受体(例如嗅觉受体)的情况下，筛选也遭受不可靠的功能表达。最近，为对人受体进行全面的嗅觉筛选而进行的大规模努力在73种气味物中测定了394种OR。研究人员构建了细胞系，该细胞系与瞬时转染组合允许表达功能性OR表达所需要的所有因子。瞬时转染的OR的激活导致萤光素酶报告物表达，它们可以在多孔板中进行测定。此筛选需要>50,000个个别的测量，并且花费多年。仅这项研究使已知的配体-受体结合对数目倍增，并将27种人OR受体定位到其化学配体。尽管此方法取得了成功，但进行此相对较小的化学筛选所需要的规模仍然较大，因为每种化合物必须在数百种OR间以一定浓度范围进行测试，每种测试需要分开的瞬时转染。因此，此类方法几乎没有机会扩展到本公开内容的方法的类型。

本公开内容的方法描述了细胞系内含有的大受体文库的构建，所述细胞可以使用本文所述的检测方法多重报告其活性。凭借此可自动表征平台，当前的方法可用于以比以前已经进行的规模大得多的规模研究配体和受体的结合。测定法和方法在药物发现和测试中可以有许多应用。

I.受体和诱导型报告物

本公开内容的当前方法、核酸、载体、病毒颗粒和细胞涉及受体蛋白质，其在配体结合时通过受体应答元件诱导报告物的转录。因此，报告物在受体蛋白的直接控制下或由受体蛋白间接控制。术语“受体应答元件”是指诱导型报告物的启动子区域中在受体和配体结合后由受体或受体的下游元件结合的元件。在一些实施方案中，受体蛋白是G蛋白偶联受体(GPCR)或受体基因编码GPCR。G蛋白偶联受体(GPCR)调节极其多种正常的生物学过程，并在其下游信号传导活性的失调时在许多疾病的病理生理学中发挥作用。GPCR配体包括神经递质、激素、细胞因子和脂质信号传导分子。GPCR调节极其多种生物学过程，例如视觉、嗅觉、自主神经系统和行为。除其胞外配体外，每个GPCR结合由G-α、G-β和G-γ亚基构成的特定胞内异三聚体G蛋白，其激活下游信号途径。这些胞内信号传导途径包括cAMP/PKA、钙/NFAT、磷脂酶C、蛋白酪氨酸激酶、MAP激酶、PI-3-激酶、一氧化氮/cGMP、Rho和JAK/STAT。GPCR功能或信号转导的破坏促成病理状况，随其配体和它们调节的过程从神经学病症变化到免疫学病症变化到激素病症。GPCR占当前所有药物开发靶标的30％。开发药物筛选测定法需要对所选基于细胞的模型系统中靶标和相关GPCR的表达和功能以及相关GPCR的表达进行调查，以评估直接和潜在的脱靶副作用两者。

基于对受体信号转导和由受体实现的转录调节的广泛知识，构建受体基因/受体应答元件在本领域技术人员的技能范围内。

在GPCR的情况下，诱导型报告物包含应答元件，该应答元件在通过配体结合进行GPCR信号转导激活时指导报告物的转录活性。GPCR应答元件包含：cAMP应答元件(CRE)、活化T细胞核因子应答元件(NFAT-RE)、血清应答元件(SRE)和血清响应因子应答元件(SRF-RE)。GPCR可以进一步分为G_s、G_i、G_q和G₁₂。下表显示了受体基因/蛋白质和应答元件的例子：

受体基因/蛋白	应答元件
		G<sub>s</sub>	CRE
G<sub>i</sub>	SRE
		G<sub>q</sub>	NFAT-RE
G<sub>12</sub>	SRF-RE

G_olf或G嗅觉受体是G_s GPCR，其信号转导将ATP转化为cAMP。然后，cAMP通过CRE应答元件指导转录。示例性的嗅觉受体包括下面制成表格的那些嗅觉受体：

嗅觉受体，家族1：

嗅觉受体，家族2：

嗅觉受体，家族3：

嗅觉受体，家族4：

嗅觉受体，家族5

嗅觉受体，家族6：

嗅觉受体，家族7：

http://www.genenames.org/cgi-bin/download？title＝Genefam+data&submit ＝submit&hgnc_dbtag＝on&preset＝genefam&status＝Approved&status＝Entry+ Withdrawn&status_opt＝2&＝on&format＝text&limit＝&.cgifields＝&.cgifields＝ chr&.cgifields＝status&.cgifields＝hgnc_dbtag&where＝gd_gene_fam_name％ 20RLIKE％20′(％5e|％20)OR7($|，)′&order_by＝gd_app_svm_sort

嗅觉受体，家族8：

嗅觉受体，家族9：

嗅觉受体，家族10：

嗅觉受体，家族11：

嗅觉受体，家族12：

嗅觉受体，家族13：

嗅觉受体，家族14：

嗅觉受体，家族51：

嗅觉受体，家族52：

嗅觉受体，家族55：

嗅觉受体，家族56：

可用作根据本公开内容的方法和组合物的异源受体的另外的示例性受体基因/蛋白质包括诸如下表中列出的那些受体的受体：

GPCR受体

核激素受体：

催化受体

配体可以是受体的已知配体或测试化合物。例如，在嗅觉受体的情况下，配体可以是气味物。示例性的气味物包括丁酸香叶酯(geranyl butyrate)、甲酸甲酯、乙酸甲酯、丙酸甲酯、甲基丙酸酯、丁酸甲酯、甲基丁酸酯、乙酸乙酯、丁酸乙酯、乙基丁酸酯、乙酸异戊酯、丁酸戊酯、戊基丁酸酯、戊酸戊酯、乙酸辛酯、乙酸苄酯和邻氨基苯甲酸甲酯。

在一些实施方案中，配体包含小分子、多肽或核酸配体。本公开内容的方法涉及检测配体与受体结合的筛选程序。因此，配体可以是测试化合物或药物。为了测定配体/药物功效和/或脱靶效应，可以利用本公开内容的方法来测定配体和受体结合。多肽配体可以是肽，其长度小于100个氨基酸。

化学试剂是“小分子”化合物，其通常是具有小于10,000Da的分子量的有机非肽分子。在一些实施方案中，它们小于5,000Da、小于1,000Da或小于500Da(以及其中可导出的任何范围)。这类调节剂包括化学合成的分子，例如，来自组合化学文库的化合物。可以从本文所述的筛选方法中合理地设计或鉴定合成化合物。产生和获得小分子的方法在本领域中是公知的(Schreiber，Science 2000；151：1964-1969；Radmann等人，Science 2000；151：1947-1948，其在此通过引用并入)。

II.报告物系统

A.核酸报告物

报告物包含条形码区域，所述条形码区域包含可以鉴定激活受体的索引区。索引区可以是长度为至少，至多或正好5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200或更多(或其中可导出的任何范围)核苷酸的多核苷酸。条形码可包含一个或多个通用PCR区域、衔接子、接头或其组合。

条形码的索引区是可用于鉴定与条形码在同一细胞中激活和/或表达的异源受体的多核苷酸序列，因为它在利用的筛选的背景中对于特定的异源受体是独特的。在与细胞群体相关的实施方案中，通过测定索引区的核苷酸序列来测定条形码的身份，以便鉴定在细胞群体中哪些受体已经被激活。如本文所讨论的，方法可以涉及对一个或多个索引区进行测序或使此类索引区被测序。

通过本领域已知的任何手段产生核酸构建体，包括通过使用聚合酶和固态核酸合成(例如，在柱、多壁板或微阵列上)。本发明提供了条形码的纳入，以促进测定特定核酸调节元件(即受体应答元件)的活性，其可以是激活受体的指示。这些条形码包含在含有核酸调节元件的表达载体和核酸构建体中。条形码的每个索引区对于相应的异源受体基因是独特的(即，尽管特定的核酸调节元件可以具有超过一个条形码或索引区(例如2、3、4、5、10或更多)，每个条形码指示单一受体的激活)。这些条形码在表达载体中定位，使得它们在与相关的开放阅读框在相同的mRNA转录物中转录。条形码可以在mRNA转录物中，在开放阅读框的5’、在开放阅读框的3’、直接在末端多聚-A尾的5’、或其间的某个位置。在一些实施方案中，条形码在3’非翻译区中。

条形码的独特部分可以沿着条形码序列的长度是连续的，或者条形码可以包括对于任何一个条形码不是独特的核酸序列的区段。在一种应用中，条形码的独特部分(即一个或多个索引区)可以被在转录成mRNA的过程中被细胞机器除去的核酸区段(例如内含子)分开。

诱导型报告物包含调控元件，例如启动子和条形码。在一些实施方案中，调节元件还包括开放阅读框。如本文所述，开放阅读框可以编码可选择或可筛选标志物。核酸调节元件可以是5’、3’或在开放阅读框内。条形码可以位于待转录成mRNA的区域内的任何位置(例如，开放阅读框的上游、开放阅读框的下游或在开放阅读框内)。重要的是，条形码位于转录终止位点的5’。

通过本领域已知的方法来量化或测定条形码和/或索引区，包括定量测序(例如，使用

测序仪)或定量杂交技术(例如，微阵列杂交技术或使用

珠系统)。本文进一步描述了测序方法。

B.检测条形码的测序方法

1.大规模平行签名测序(MPSS)。

在20世纪90年代在Lynx Therapeutics开发出下一代测序技术中的第一种，大规模平行签名测序(MPSS)。MPSS是基于珠的方法，其使用衔接子连接，然后进行衔接子解码，以四个核苷酸的增量读取序列的复杂方法。此种方法使其易受序列特异性偏倚或特定序列丧失的影响。由于该技术是如此复杂的，因此MPSS仅由Lynx Therapeutics“内部”进行，并且未给独立实验室出售DNA测序仪。Lynx Therapeutics于2004年与Solexa(后来被Illumina获得)合并，从而开发出边合成边测序，从Manteia Predictive Medicine获得的一种更简单的方法，这使MPSS变得过时。然而，MPSS输出的基本特性是后来的“下一代”数据类型典型的，包括数十万种短DNA序列。在MPSS的情况中，这些通常用于对cDNA进行测序以测量基因表达水平。实际上，强大的Illumina HiSeq2000、HiSeq2500和MiSeq系统基于MPSS。

2.Polony测序。

Polony测序方法(哈佛的George M.Church实验室开发)是最早的下一代测序系统之一，并于2005年用于对全基因组进行测序。它将体外配对标签文库与乳液PCR、自动显微镜和基于连接的测序化学组合，从而以>99.9999％的准确度和Sanger测序成本的约1/9的成本对大肠杆菌基因组进行测序。该技术已获得Agencourt Biosciences的许可，Agencourt Biosciences随后剥离出Agencourt Personal Genomics，并最终并入AppliedBiosystems SOLiD平台，该平台现已由Life Technologies拥有。

3.454焦磷酸测序。

焦磷酸测序的平行化版本由454 Life Sciences(其此后已被Roche Diagnostics获得)开发。该方法在油溶液中的水液滴内部扩增DNA(乳液PCR)，每个液滴含有附着于经引物包被的单一珠的单一DNA模板，其然后形成克隆集落。测序仪含有多个皮升体积的孔，每孔含有单一珠和测序酶。焦磷酸测序使用萤光素酶来产生光，以检测添加到新生DNA的个别核苷酸，并且使用组合的数据来产生序列读数。与一端的Sanger测序和另一端的Solexa和SOLiD相比，该技术提供了中等的读段长度和每碱基的价格。

4.Illumina(Solexa)测序。

Solexa(现在是Illumina的一部分)开发出一种基于可逆染料终止剂技术和其内部开发的工程化聚合酶的测序方法。终止的化学是在Solexa内部开发的，并且Solexa系统的构思是由剑桥大学化学系的Balasubramanian和Klennerman发明的。于2004年，Solexa获得了Manteia Predictive Medicine公司，以获取基于“DNA簇”的大规模平行测序技术，该技术涉及表面上DNA的克隆扩增。簇技术与加利福尼亚州的Lynx Therapeutics共同获得。Solexa Ltd.随后与Lynx合并，成立了Solexa Inc.。

在该方法中，首先将DNA分子和引物附着在载玻片上，并用聚合酶扩增，从而形成局部克隆的DNA集落，随后形成“DNA簇”。为了测定序列，添加四种类型的可逆终止剂碱基(RT碱基)，并洗去未掺入的核苷酸。照相机拍摄经荧光标记的核苷酸的图像，然后从DNA中化学除去染料以及末端3’阻断剂，允许开始接着的循环。与焦磷酸测序不一样，将DNA链一次延长1个核苷酸，并且可以在延迟的时刻进行图像采集，允许通过从单一照相机拍摄的连续图像捕获极大的DNA集落阵列。

将酶促反应和图像捕获解耦允许最佳通量和理论上无限的测序能力。凭借最佳配置，因此，最终可达到的仪器通量仅由照相机的模数转换率，乘以照相机的数目并且除以使它们最佳显现需要的每DNA集落的像素数(约10像素/集落)规定。在2012年，凭借以超过10MHzA/D转换率运行的照相机以及可用的光学、流控技术和酶促学技术，通量可以是100万个核苷酸/秒的倍数，大致对应于每台仪器每小时1倍覆盖的1个人基因组当量，和每台仪器每天再测序(约30倍)的1个人基因组。

5.SOLiD测序。

Applied Biosystems(现在是Life Technologies品牌)SOLiD技术采用边连接边测序。在这里，根据测序位置标记固定长度的所有可能的寡核苷酸的合并物。将寡核苷酸退火并连接；DNA连接酶对匹配序列的优先连接导致提供该位置处核苷酸的信息的信号。在测序之前，通过乳液PCR扩增DNA。将所得的珠(每个含有相同DNA分子的单一拷贝)沉积在载玻片上。结果是与Illumina测序相当的量和长度的序列。已经报告了此种边连接边测序方法具有对回文序列进行测序的某种问题。

6.Ion Torrent半导体测序。

Ion Torrent Systems Inc.(现在由Life Technologies拥有)开发出一种基于使用标准测序化学，但是具有新型的基于半导体的新型检测系统的系统。此种测序方法基于检测DNA聚合过程中释放的氢离子，与其它测序系统中使用的光学方法相反。包含要测序的模板DNA链的微孔充满单一类型的核苷酸。若引入的核苷酸与前导模板核苷酸互补，则将其掺入正在生长的互补链中。这引起氢离子的释放，所述氢离子触发超灵敏离子传感器，其指示已发生反应。若模板序列中存在均聚物重复序列，则将在单一循环中掺入多个核苷酸。这导致相应数目的释放氢和高得成比例的电子信号。

7.DNA纳米球测序。

DNA纳米球测序是一种类型的用于测定生物体的完整基因组序列的高通量测序技术。Complete Genomics公司使用此技术对独立研究人员提交的样品进行测序。该方法使用滚环复制来将基因组DNA的小片段扩增为DNA纳米球。然后，使用非链式边连接边测序(unchained sequencing by ligation)来测定核苷酸序列。与其它下一代测序平台相比，此种DNA测序方法允许每次运行以低的试剂成本对大量的DNA纳米球进行测序。然而，从每个DNA纳米球仅测定DNA的短序列，这使得将短读段定位到参考基因组变得困难。此技术已用于多个基因组测序项目，并计划用于更多项目。

8.Heliscope单分子测序。

Heliscope测序是由Helicos Biosciences开发的单分子测序方法。它使用具有添加的附着到流动池表面的多聚-A尾衔接子的DNA片段。接着的步骤涉及基于延伸的测序，用经荧光标记的核苷酸循环清洗流动池(与Sanger方法一样，一次一种核苷酸类型)。通过Heliscope测序仪进行读取。读取较短，每次运行最多55个碱基，但是最近的改进允许一种类型核苷酸的区段的更精确读段。使用此测序方法和设备来对M13噬菌体的基因组进行测序。

9.单分子实时(SMRT)测序。

SMRT测序基于边合成边测序方法。DNA在零模波导(ZMW)中合成——具有位于孔底部处的捕获工具的小孔样容器。使用未修饰的聚合酶(附着于ZMW底部)和溶液中自由流动的经荧光标记的核苷酸进行测序。孔以仅检测到孔底部发生的荧光的方式构建。荧光标记物在其对DNA链掺入时与核苷酸分离，留下未修饰的DNA链。根据SMRT技术开发商PacificBiosciences，此方法允许检测核苷酸修饰(例如胞嘧啶甲基化)。这通过观察聚合酶动力学而发生。此种方法允许20,000个核苷酸或更多的读段，平均读段长度为5千碱基。

C.基因或条形码表达的测量

本公开内容的实施方案涉及测定报告物条形码和/或报告物基因或开放阅读框的表达。报告物的表达可以通过测量条形码或索引区以及从报告物构建体表达的任何其它多核苷酸的RNA转录物水平来测定。用于此目的的合适方法包括但不限于RT-PCR、Northern印迹、原位杂交、Southern印迹、狭缝印迹法、核酸酶保护测定法和寡核苷酸阵列。

在某些方面，从细胞分离的RNA可以在检测和/或定量之前扩增为cDNA或cRNA。分离的RNA可以是总RNA或mRNA。RNA扩增可以是特异性的或非特异性的。在一些实施方案中，扩增是特异性的，因为其特异性扩增报告物条形码或其区域，例如索引区。在一些实施方案中，扩增和/或逆转录酶步骤排除随机引发。合适的扩增方法包括但不限于逆转录酶PCR、等温扩增、连接酶链式反应和Qbeta复制酶。扩增的核酸产物可以通过与经标记的探针杂交来检测和/或定量。在一些实施方案中，检测可以涉及荧光共振能量转移(FRET)或某种其它种类的量子点。

用于报告物条形码的扩增引物或杂交探针可以从报告物的表达部分的序列制备。如本文所用，术语“引物”或“探针”是指涵盖能够在模板依赖性过程中引发新生核酸合成的任何核酸。通常，引物为长度10至20和/或30个碱基对的寡核苷酸，但是可以采用更长的序列。引物可以以双链和/或单链形式提供，尽管单链形式是优选的。

使用长度为13至100个核苷酸之间，特别是17至100个核苷酸之间，或在某些方面长度长达1-2千碱基或更多的探针或引物允许形成双链体分子，该双链体分子是既稳定又有选择性。可以使用具有长度大于20个碱基的连续区段内的互补序列的分子来增加所获得的杂合分子的稳定性和/或选择性。可以设计用于杂交的核酸分子，其具有一个或多个20至30个核苷酸，或在期望时甚至更长的互补序列。例如，可以通过化学手段直接合成片段或通过将选择的序列引入重组载体中以进行重组产生来容易地制备此类片段。

在一个实施方案中，每种探针/引物包含至少15个核苷酸。例如，每种探针可包含至少或至多20、25、50、75、100、125、150、175、200、225、250、275、300、325、350、400或更多个核苷酸(或其中可导出的任何范围)。它们可以具有这些长度，并具有与本文描述的基因相同或互补的序列。特别地，每种探针/引物具有相对高的序列复杂性，并且不具有任何模糊的残基(未确定的“n”个残基)。探针/引物可以在严格或高度严格的条件下与靶基因(包括其RNA转录物)杂交。在一些实施方案中，由于每种生物标志物具有超过一种人序列，考虑了可以设计探针和引物以与这些序列中的每种一起使用。例如，肌苷是经常用于探针或引物中以与超过一种序列杂交的核苷酸。考虑了探针或引物可具有肌苷或其它设计实施方案，其适合于识别特定生物标志物的超过一种人序列。

对于需要高选择性的应用，通常将期望采用相对高严格性条件来形成杂交体。例如，相对低的盐和/或高温条件，例如在约50℃至约70℃的温度下由约0.02M至约0.10M的NaCl提供。此类高严格性条件几乎不容许探针或引物与模板或靶链之间的错配(若有的话)，并且将特别适合于分离特定基因或检测特定mRNA转录物。一般理解，可以通过添加增加量的甲酰胺使条件变得更加严格。

在一个实施方案中，使用定量RT-PCR(例如TaqMan，ABI)检测和比较样品中RNA转录物的水平。定量RT-PCR涉及将RNA逆转录(RT)成cDNA，然后进行相对定量PCR(RT-PCR)。PCR过程的线性部分中靶DNA的浓度与PCR开始之前靶标的起始浓度成正比。通过测定完成相同数目的循环并在其线性范围内的PCR反应中靶DNA的PCR产物的浓度，可以测定原始DNA混合物中特定靶序列的相对浓度。若DNA混合物是由从不同组织或细胞分离的RNA合成的cDNA，则可以针对相应的组织或细胞测定衍生靶序列的特定mRNA的相对丰度。在PCR反应的线性范围部分中，PCR产物的浓度与相对mRNA丰度之间的此种直接比例性是正确的。曲线的平台部分中靶DNA的终浓度由反应混合物中试剂的可用性决定，并且不依赖于靶DNA的原始浓度。因此，当PCR反应在其曲线的线性部分中时，可以进行扩增的PCR产物的采样和定量。另外，可扩增cDNA的相对浓度可以相对于某种独立的标准品标准化，所述标准品可以基于内部存在的RNA种类或外部引入的RNA种类。还可以相对于样品中所有mRNA种类的平均丰度来测定特定mRNA种类的丰度。

在一个实施方案中，PCR扩增利用一种或多种内部PCR标准品。内部标准品可以是细胞中丰富的管家基因，或者它可以具体是GAPDH、GUSB和β-2微球蛋白。这些标准品可用于标准化表达水平，使得可以直接比较不同基因产物的表达水平。本领域普通技术人员将知道如何使用内部标准品来标准化表达水平。

一些样品中固有的问题是它们具有可变的量和/或质量。若RT-PCR作为用内部标准品的相对定量RT-PCR进行，则可以克服此问题，其中内部标准品是与靶cDNA片段相似或比靶cDNA片段更大的可扩增cDNA片段，并且其中编码内部标准品的mRNA的丰度比编码靶标的mRNA高大致5-100倍。此测定法测量相应mRNA种类的相对丰度，而不是绝对丰度。

在另一个实施方案中，相对定量RT-PCR使用外部标准品方案。在此方案下，PCR产物在其扩增曲线的线性部分中进行采样。可以对每种靶cDNA片段凭经验测定对于取样最佳的PCR循环数。另外，对于等浓度的可扩增cDNA，可以标准化从各种样品中分离的每个RNA群体的逆转录酶产物。

核酸阵列可包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、250或更多种不同多核苷酸探针，它们可以与不同和/或相同的生物标志物杂交。相同基因的多种探针可以在单一核酸阵列上使用。其它疾病基因的探针也可以包括在核酸阵列中。阵列上的探针密度可以在任何范围内。在一些实施方案中，密度可以是50、100、200、300、400、500或更多种探针/cm²。

特别考虑了基于芯片的核酸技术，例如Hacia等人(1996)和Shoemaker等人(1996)描述的技术。简言之，这些技术涉及用于快速且准确分析大量基因的定量方法。通过用寡核苷酸对基因添加标签或使用固定探针阵列，可以采用芯片技术将靶分子分离为高密度阵列，并基于杂交筛选这些分子(还参见Pease等人，1994；和Fodor等人，1991)。考虑了就诊断、预后和治疗方法而言，可以与评估一种或多种癌症生物标志物的表达水平一起使用此技术。

某些实施方案可以涉及使用阵列或从阵列产生的数据。数据可以容易获得。此外，可以制备阵列以产生数据，所述数据然后可以在关联研究中使用。

阵列通常是指与多个mRNA分子或cDNA分子完全或几乎互补或相同并且在空间分离的构造中位于支持材料上的核酸分子(探针)的有序宏阵列或微阵列。宏阵列通常是上面点样有探针的硝酸纤维素或尼龙的片。微阵列将核酸探针更密集地定位，使得多达10,000个核酸分子可以装配到通常1-4平方厘米的区域中。可通过将核酸分子，例如基因，寡核苷酸等点样到基底上或在基底上原位制作寡核苷酸序列来制作微阵列。可以以每平方厘米多达约30个不同核酸分子或更高，例如每平方厘米多达约100或甚至1000个的高密度基质图案应用点样或制作的核酸分子。与基于硝酸纤维素的滤器阵列材料相比，微阵列通常使用涂层玻璃作为固体支持物。通过具有互补核酸样品的有序阵列，可以追踪每个样品的位置并且与原始样品联系。多种独特的核酸探针与固体支持物表面稳定缔合的多种不同阵列装置是本领域技术人员已知的。可用于阵列的基底包括尼龙、玻璃和硅。此类阵列可以以多种不同方式变化，包括平均探针长度、探针的序列或类型、探针与阵列表面之间的键的性质，例如，共价或非共价等。标记和筛选方法和阵列就除探针检测表达水平外的任何参数而言在其效用上不受限制；因此，方法和组合物可以与多种不同类型的基因一起使用。

用于制备微阵列的代表性方法和设备已经记载于例如美国专利Nos.5,143,854；5,202,231；5,242,974；5,288,644；5,324,633；5,384,261；5,405,783；5,412,087；5,424,186；5,429,807；5,432,049；5,436,327；5,445,934；5,468,613；5,470,710；5,472,672；5,492,806；5,525,464；5,503,980；5,510,270；5,525,464；5,527,681；5,529,756；5,532,128；5,545,531；5,547,839；5,554,501；5,556,752；5,561,071；5,571,639；5,580,726；5,580,732；5,593,839；5,599,695；5,599,672；5,610；287；5,624,711；5,631,134；5,639,603；5,654,413；5,658,734；5,661,028；5,665,547；5,667,972；5,695,940；5,700,637；5,744,305；5,800,992；5,807,522；5,830,645；5,837,196；5,871,928；5,847,219；5,876,932；5,919,626；6,004,755；6,087,102；6,368,799；6,383,749；6,617,112；6,638,717；6,720,138以及WO 93/17126；WO 95/11995；WO 95/21265；WO 95/21944；WO 95/35505；WO 96/31622；WO 97/10365；WO 97/27317；WO 99/35505；WO 09923256；WO 09936760；WO0138580；WO 0168255；WO 03020898；WO 03040410；WO 03053586；WO 03087297；WO 03091426；WO03100012；WO 04020085；WO 04027093；EP 373 203；EP 785 280；EP 799 897和UK 8 803000；其公开全部通过引用并入本文。

考虑了阵列可以是高密度阵列，使得它们含有100个或更多种不同探针。考虑了它们可以含有1000、16,000、65,000、250,000或1,000,000或更多的不同探针。在一些实施方案中，寡核苷酸探针的长度范围为5至50、5至45、10至40或15至40个核苷酸。在某些实施方案中，寡核苷酸探针的长度为20至25个核苷酸。

阵列中每种不同探针序列的位置和序列一般是已知的。此外，大量不同探针可以占据相对较小的区域，从而提供高密度阵列，该探针阵列具有通常大于约60、100、600、1000、5,000、10,000、40,000、100,000、400,000种不同寡核苷酸探针/cm2的探针密度。阵列的表面积可以为约或小于约1、1.6、2、3、4、5、6、7、8、9或10cm2。

此外，本领域普通技术人员可以容易地分析使用阵列产生的数据。此类方案包括WO 9743450；WO 03023058；WO 03022421；WO 03029485；WO 03067217；WO 03066906；WO03076928；WO 03093810；WO 03100448A1(它们全部明确通过引用并入)中找到的信息。

在一个实施方案中，使用核酸酶保护测定法来量化源自癌症样品的RNA。本领域技术人员已知有许多不同形式的核酸酶保护测定法。这些核酸酶保护测定法具有的共同特征在于它们涉及反义核酸与待量化的RNA的杂交。然后，用核酸酶消化所得的杂合双链分子，所述核酸酶比双链分子更有效地消化单链核酸。幸免于消化的反义核酸的量是待量化的靶RNA种类量的测量。商品化的核酸酶保护测定的一个例子是由Ambion，Inc.(Austin，Tex.)制造的RNA酶保护测定法。

III.受体基因和诱导型报告物添加

在某些实施方案中，受体基因和或诱导型报告系统包含编码一种或多种辅助多肽的一种或多种多核苷酸序列。示例性的辅助多肽包括转录因子、蛋白质或肽标签和可筛选或可选择基因。

A.选择和筛选基因

在本公开内容的某些实施方案中，诱导型报告物和/或受体基因可以包含或还包含选择或筛选基因。此外，本发明内容的细胞、载体和病毒颗粒可以还包含选择或筛选基因。在一些实施方案中，选择或筛选基因与受体基因融合，使得细胞中存在一种融合蛋白，该融合蛋白包含与选择或筛选蛋白融合的受体蛋白。此类基因将对细胞赋予可鉴定的变化，从而允许容易地鉴定具有异源受体基因激活的细胞。通常，可选择(即选择基因)基因是赋予允许选择的特性的基因。正可选择基因是基因或基因产物的存在允许其选择的基因，而负可选择基因是基因或基因产物的存在阻止其选择的基因。正选择基因的一个例子是抗生素抗性基因。

通常，包含药物选择基因有助于通过例如成功的配体结合来克隆和鉴定具有激活受体基因的细胞。例如，选择基因可以是赋予对新霉素、嘌呤霉素、潮霉素、DHFR、GPT、zeocin、G418、腐草霉素、杀稻瘟素和组氨醇的抗性的基因。除赋予允许基于条件的实施来区分受体激活的表型的基因以外，还考虑了其他类型的基因，包括可筛选基因，例如GFP，其基因产物提供比色分析。或者，可以使用可筛选的酶，例如单纯疱疹病毒胸苷激酶(tk)或氯霉素乙酰转移酶(CAT)。本领域技术人员还会知道如何可能与FACS分析结合使用可筛选的基因及其蛋白质产物。选择和筛选基因的其它例子是本领域技术人员公知的。在某些实施方案中，基因产生荧光蛋白、酶活性蛋白、发光蛋白、可光活化的蛋白、可光转化的蛋白或比色蛋白。荧光标志物包括例如GFP和变体，例如YFP，RFP等，以及其它荧光蛋白，例如DsRed、mPlum、mCherry、YPet、Emerald、CyPet，T-Sapphire、萤光素酶和Venus。可光活化的标志物包括例如KFP、PA-mRFP和Dronpa。可光转化的标志物包括例如mEosFP、KikGR和PS-CFP2。发光蛋白包括例如Neptune、FP595和phialidin。

B.蛋白质或肽标签

示例性的蛋白质/肽标签包括AviTag(允许被BirA酶生物素化，因此可以通过链霉抗生物素蛋白分离蛋白质的肽(GLNDIFEAQKIEWHE，SEQ ID NO：4))，钙调蛋白-标签(一种由蛋白质钙调蛋白结合的肽(KRRWKKNFIAVSAANRFKKISSSGAL，SEQ ID NO：5))，聚谷氨酸标签(一种与阴离子交换树脂如Mono-Q有效结合的肽(EEEEEE，SEQ ID NO：6))，E-标签(一种被抗体识别的肽(GAPVPYPDPLEPR，SEQ ID NO：7))，FLAG标签(一种被抗体识别的肽(DYKDDDDK，SEQ ID NO：8))，HA标签(一种被抗体识别的来自血凝素的肽(YPYDVPDYA，SEQID NO：9))，His-标签(一种被镍或钴螯合物结合的5-10个组氨酸(HHHHHH，SEQ ID NO：10))，Myc-标签(一种被抗体识别的源自c-myc的肽(EQKLISEEDL，SEQ ID NO：11))，NE-标签(一种可被单克隆IgG1抗体识别的新颖的18个氨基酸的合成肽(TKENPRSNQEESYDDNES，SEQID NO：12))(其可用于极其多种应用，包括Western印迹法、ELISA、流式细胞术、免疫细胞化学、免疫沉淀和亲和纯化重组蛋白)，S-标签(一种源自核糖核酸酶A的肽(KETAAAKFERQHMDS，SEQ ID NO：13))，SBP-标签(一种与链霉抗生物素蛋白结合的肽(MDEKTTGWRGGHVVEGLAGELEQLRARLEHHPQGQREP，SEQ ID NO：14))，用于哺乳动物表达的Softag 1(SLAELLNAGLGGS，SEQ ID NO：15)，用于原核表达的Softag 3(TQDPSRVG，SEQ ID NO：16)，Strep-tag(一种与链霉抗生物素蛋白或称为streptactin的经修饰的链霉抗生物素蛋白结合的肽(Strep-标签II：WSHPQFEK，SEQ ID NO：17))，TC标签(一种被FlAsH和ReAsH双砷化合物识别的四半胱氨酸标签(CCPGCC，SEQ ID NO：18))，V5标签(一种被抗体识别的肽(GKPIPNPLLGLDST，SEQ ID NO：19))，VSV标签(一种被抗体识别的肽(YTDIEMNRLGK，SEQ IDNO：20))，Xpress标签(DLYDDDDK，SEQ ID NO：21)，共价肽标签，Isopeptag(一种与菌毛蛋白C蛋白共价结合的肽(TDKDMTITFTNKKDAE，SEQ ID NO：22))，Spy Tag(一种与SpyCatcher蛋白共价结合的肽(AHIVMVDAYKPTK，SEQ ID NO：23))，SnoopTag(一种与SnoopCatcher蛋白共价结合的肽(KLGDIEFIKVNK，SEQ ID NO：24))，BCCP(生物素羧基载体蛋白)(一种被BirA生物素化，从而被链霉抗生物素蛋白识别的蛋白质域)，谷胱甘肽-S-转移酶标签(一种与固定化的谷胱甘肽结合的蛋白质)，绿色荧光蛋白标签(一种自发荧光并且可以被纳米抗体结合的蛋白质)，HaloTag(一种突变的细菌卤代烷烃脱卤素酶，其共价附着到反应性卤代烷烃底物，这允许附着到极其多种的底物)，麦芽糖结合蛋白标签(一种与直链淀粉琼脂糖结合的蛋白质)，Nus标签，硫氧还蛋白标签(源自免疫球蛋白Fc域，允许二聚化和增溶)。可以用于在蛋白-A Sepharose上纯化，含有促进无序的氨基酸(P，E，S，T，A，Q，G，..)的设计内在无序标签(Designed Intrinsically Disordered tag)和Ty标签

C.转录因子

在一些实施方案中，受体基因编码包含受体蛋白和辅助多肽的融合蛋白。在一些实施方案中，辅助多肽是转录因子。在相关的实施方案中，诱导型报告物包括受体应答元件，其中受体应答元件被转录因子结合。此类转录因子和应答元件是本领域已知的，并且例如包括反向四环素控制的转录激活物(rtTA)(它可以通过四环素应答元件(TRE)诱导转录)、Gal4p(它通过GAL1启动子诱导转录)和雌激素受体(它当与配体结合时通过雌激素应答元件诱导表达)。因此，相关的实施方案包括施用配体以激活辅助多肽转录因子的转录。

IV.载体和核酸

本公开内容包括包含异源受体基因和诱导型报告物中的一种或多种的核酸的实施方案。术语“寡核苷酸”、“多核苷酸”和“核酸”可互换使用，并且包括天然或修饰的单体或连接的线性寡聚物，包括脱氧核糖核苷、核糖核苷、其α-异头物形式、肽核酸(PNA)等等，它们能够通过单体与单体相互作用的规则模式，例如Watson-Crick类型的碱基配对、碱基堆积、Hoogsteen或反向Hoogsteen类型的碱基配对等特异性结合靶多核苷酸。通常，单体通过磷酸二酯键或其类似物连接以形成寡核苷酸，其大小范围为几个单体单元(例如3-4个)至几十个单体单元。每当寡核苷酸由字母序列，例如“ATGCCTG”呈现时，应当理解，核苷酸从左至右为5’→3’顺序，并且“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，而“T”表示胸苷，除非另有记录。磷酸二酯连接的类似物包括硫代磷酸酯、二硫代磷酸酯、苯胺磷酸酯(phosphoranilidate)、氨基磷酸酯等。对于本领域技术人员而言清楚的是，可以采用具有天然或非天然核苷酸的寡核苷酸，例如在需要通过酶进行加工的情况下，通常需要由天然核苷酸组成的寡核苷酸。

核酸可以是“未修饰的寡核苷酸”或“未修饰的核酸”，其通常是指核糖核酸(RNA)或脱氧核糖核酸(DNA)的寡聚物或聚合物。在一些实施方案中，核酸分子是未修饰的寡核苷酸。该术语包括由天然存在的核碱基、糖和共价核苷间连接构成的寡核苷酸。术语“寡核苷酸类似物”是指具有一个或多个以与寡核苷酸相似的方式发挥功能的非天然存在的部分的寡核苷酸。由于期望的性质，诸如例如增强的细胞摄取、对其它寡核苷酸或核酸靶标的增强的亲和力和在核酸酶存在下的增加的稳定性，经常相对于天然存在的形式选择此类非天然存在的寡核苷酸。术语“寡核苷酸”可用于指未修饰的寡核苷酸或寡核苷酸类似物。

核酸分子的具体实例包括含有经修饰的，即非天然存在的核苷间连接的核酸分子。由于期望的性质，诸如例如增加的细胞摄取、对其它寡核苷酸或核酸靶标的增加的亲和力和在核酸酶存在下的增加的稳定性，经由相对于天然存在的形式选择此类非天然核苷间连接。在一个具体的实施方案中，修饰包含甲基。

核酸分子可以具有一个或多个经修饰的核苷间连接。如本说明书中所定义，具有经修饰的核苷间连接的寡核苷酸包含保留磷原子的核苷间连接和不具有磷原子的核苷间连接。为了本说明书的目的，并且如本领域中有时提及的，在其核苷间主链中不具有磷原子的经修饰的寡核苷酸也可以认为是寡核苷。

对核酸分子的修饰可包括其中的一个或两个末端核苷酸被修饰的修饰。

一种合适的含磷的经修饰的核苷间连接是硫代磷酸酯核苷间连接。许多其它经修饰的寡核苷酸主链(核苷间连接)是本领域已知的，并且在此实施方案的背景中可以是有用的。

教导制备含磷的核苷间连接的代表性美国专利包括但不限于美国专利No.3,687,808；4,469,863；4,476,301；5,023,243，5,177,196；5,188,897；5,264,423；5,276,019；5,278,302；5,286,717；5,321,131；5,399,676；5,405,939；5,453,496；5,455,233；5,466,677；5,476,925；5,519,126；5,536,821；5,541,306；5,550,111；5,563,253；5,571,799；5,587,361；5,194,599；5,565,555；5,527,899；5,721,218；5,672,6975,625,050，5,489,677，和5,602,240，其每篇通过引用并入本文。

其中不包含磷原子的经修饰的寡核苷主链(核苷间连接)具有核苷间连接，其由短链烷基或环烷基核苷间连接、混合的杂原子和烷基或环烷基核苷间连接、或一个或多个短链杂原子或杂环核苷间连接形成。这些包括具有酰胺主链的那些；和包括具有混合的N，O，S和CH2组成部分的其它。

教导了上述非含磷的寡核苷酸的制备的代表性美国专利包括但不限于美国专利No.5,034,506；5,166,315；5,185,444；5,214,134；5,216,141；5,235,033；5,264,562；5,264,564；5,405,938；5,434,257；5,466,677；5,470,967；5,489,677；5,541,307；5,561,225；5,596,086；5,602,240；5,610,289；5,602,240；5,608,046；5,610,289；5,618,704；5,623,070；5,663，312；5,633,360；5,677,437；5,792,608；5,646,269和5,677,439，其每篇通过引用并入本文。

寡聚化合物还可以包括寡核苷酸模拟物。术语模拟物当它应用于寡核苷酸时意图包括寡聚化合物，其中仅呋喃糖环或呋喃糖环和核苷酸间连接两者用新的基团替换，仅呋喃糖环用例如吗啉代环替换在本领域中称为糖替代物。维持杂环碱基部分或经修饰的杂环碱基部分以与适当的靶核酸杂交。

寡核苷酸模拟物可以包括寡聚化合物，例如肽核酸(PNA)和环己烯基核酸(称为CeNA，参见Wang等人，J.Am.Chem.Soc.，2000，122，8595-8602)。教导制备寡核苷酸模拟物的代表性美国专利包括但不限于美国专利No.5,539,082；5,714,331；和5,719,262，每篇通过引用并入本文。另一类寡核苷酸模拟物称为膦酰基单酯核酸，并在主链中掺入磷基团。报告了此类寡核苷酸模拟物在抑制基因表达(反义寡核苷酸、核酶、有义寡核苷酸和三链体形成寡核苷酸)方面中，作为检测核酸的探针和作为用于分子生物学的辅助物具有有用的物理和生物学及药理特性。已经报告了另一种寡核苷酸模拟物，其中呋喃糖基环已被环丁基部分替换。

核酸分子还可含有一个或多个经修饰的或经取代的糖部分。维持碱基部分以与适当的核酸靶化合物杂交。糖修饰可以为寡聚化合物赋予核酸酶稳定性、结合亲和力或一些其它有益的生物学特性。

代表性的经修饰的糖包含碳环或无环糖、在其2’、3’或4’位中的一处或多处具有取代基的糖、具有替换糖的一个或多个氢原子的取代基的糖、和具有糖中任何两个其它原子之间的连接的糖。在本领域中已知大量糖修饰，在2’位处修饰的糖和在糖的任何2个原子之间具有桥(使得糖为双环)的那些糖在此实施方案中特别有用。可用于此实施方案的糖修饰的实例包括但不限于包含选自以下的糖取代基的化合物：OH；F；O-、S-或N-烷基；或O-烷基-O-烷基，其中烷基、烯基和炔基可以是取代或未取代的C1-C10烷基或C2-C10烯基和炔基。特别合适的是：2-甲氧基乙氧基(也称为2’-O-甲氧基乙基，2’-MOE或2’-OCH2CH2OCH3)，2’-O-甲基(2’-O-CH3)，2’-氟(2’-F)或具有将4’碳原子连接至2’碳原子的桥接基团的双环糖修饰的核苷，其中示例桥基包括--CH2--O-、-(CH2)2--O-或--CH2--N(R3)--O，其中R3为H或C1-C12烷基。

一种赋予增加的核酸酶抗性和对核苷酸的极高结合亲和力的修饰是2’-MOE侧链(Baker等人，J.Biol.Chem.，1997，272，11944-12000)。2’-MOE取代的直接优势之一是结合亲和力的改善，它比许多相似的2’修饰，例如O-甲基、O-丙基和O-氨基丙基更大。具有2’-MOE取代基的寡核苷酸也已显示是具有对于体内应用有希望的特征的基因表达的反义抑制剂(Martin，P.，Helv.Chim.Acta，1995，78，486-504；Altmann等人，Chimia，1996，50，168-176；Altmann等人，Biochem.Soc.Trans.，1996，24，630-637；和Altmann等人，NucleosidesNucleotides，1997，16，917-926)。

2’-糖取代基可以在阿拉伯糖(上)位置或核糖(下)位置中。一种2’-阿拉伯糖修饰是2’-F。还可以在寡聚化合物的其它位置，特别是在3’末端核苷上的糖的3’位或在2’-5’连接的寡核苷酸中和5’末端核苷酸的5’位进行类似的修饰。寡聚化合物还可具有糖模拟物如环丁基部分替换戊呋喃糖基糖。教导制备此类经修饰的糖结构的代表性美国专利包括但不限于美国专利No.4,981,957；5,118,800；5,319,080；5,359,044；5,393,878；5,446,137；5,466,786；5,514,785；5,519,134；5,567,811；5,576,427；5,591,722；5,597,909；5,610,300；5,627,053；5,639,873；5,646,265；5,658,873；5,670,633；5,792,747；和5,700,920，其每篇通过引用整体并入本文。

核酸分子还可含有一个或多个核碱基(在本领域中通常简称为“碱基”)修饰或取代，其在结构上与天然存在的或合成的未修饰的核碱基可区分但在功能上可互换。此类核碱基修饰可赋予寡聚化合物以核酸酶稳定性、结合亲和力或一些其它有益的生物学特性。如本文所用，“未修饰的”或“天然的”核碱基包括嘌呤碱基腺嘌呤(A)和鸟嘌呤(G)，以及嘧啶碱基胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U)。在本文中也称为杂环碱基部分的经修饰的核碱基包括其它合成的和天然的核碱基，其许多例子例如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、7-脱氮鸟嘌呤和7-脱氮杂腺嘌呤，等等。

杂环碱基部分还可包括其中的嘌呤或嘧啶碱基用其它杂环，例如7-脱氮-腺嘌呤、7-脱氮鸟嘌呤、2-氨基吡啶和2-吡啶酮替换的那些。一些核碱基包括美国专利No.3,687,808中公开的那些，The Concise Encyclopedia Of Polymer Science And Engineering，第858-859页，Kroschwitz，J.I.编John Wiley&Sons，1990中公开的那些，由Englisch等人，Angewandte Chemie，International Edition，1991，30，613公开的那些和由Sanghvi，Y.S.，第15章，Antisense Research and Applications，第289-302页，Crooke，S.T.andLebleu，B.编，CRC Press，1993公开的那些。这些核碱基中的某些对于增加寡聚化合物的结合亲和力特别有用。这些包括5-取代的嘧啶、6-氮杂嘧啶和N-2、N-6和O-6取代的嘌呤，包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。

在美国专利公开文本2009/0221685(其在此通过引用并入)中公开了对核酸分子的其它修饰。本文还公开了与核酸分子的其它合适的缀合物。

异源受体基因和诱导型报告物可以由核酸分子，例如载体编码。在一些实施方案中，它们在相同的核酸分子上编码。在一些实施方案中，它们在分开的核酸分子上编码。在某些实施方案中，核酸分子可以是核酸载体的形式。术语“载体”用于指可以插入有异源核酸序列以导入细胞中的载体核酸分子，在所述细胞中它可以被复制、表达和/或整合到宿主细胞的基因组中。核酸序列可以是“异源的”，这意味着它对于导入载体的细胞或被掺入的核酸是异源的，其包括与细胞或核酸中的序列同源，但是通常在一般找不到它的宿主细胞或核酸内的位置中的序列。载体包括DNA、RNA、质粒、粘粒、病毒(噬菌体、动物病毒和植物病毒)和人工染色体(例如YAC)。通过标准重组技术(例如，Sambrook等人，2001；Ausubel等人，1996，两者都通过引用并入本文)，本领域技术人员将完全有能力构建载体。载体可用于宿主细胞中以产生抗体。

术语“表达载体”是指含有编码至少部分基因产物的核酸序列的载体，该基因产物能够被转录或稳定整合到宿主细胞的基因组中并且随后被转录。在某些情况下，RNA分子然后被翻译成蛋白质、多肽或肽。表达载体可以含有多种“控制序列”，它们是指在特定宿主生物体中可操作连接的编码序列的转录和可能翻译所必需的核酸序列。除了控制转录和翻译的控制序列外，载体和表达载体还可包含也发挥其它功能的核酸序列，并且在本文中进行了描述。

本文公开的载体可以是本领域已知的任何核酸载体。示例性载体包括质粒、粘粒、细菌人工染色体(BAC)和病毒载体。

可以使用动物细胞的任何表达载体。合适的载体的例子包括pAGE107(Miyaji等人，1990)、pAGE103(Mizukami and Itoh，1987)、pHSG274(Brady等人，1984)、pKCR(O′Hare等人，1981)、pSG1 beta d2-4(Miyaji等人，1990)等。

质粒的其它例子包括包含复制起点的复制质粒或整合质粒，诸如例如pUC、pcDNA、pBR等。

病毒载体的其它例子包括腺病毒、慢病毒、逆转录病毒、疱疹病毒和AAV载体。此类重组病毒可以通过本领域已知的技术产生，例如通过转染包装细胞或通过用辅助质粒或病毒瞬时转染。病毒包装细胞的典型例子包括PA317细胞、PsiCRIP细胞、GPenv+细胞、293细胞等。产生此类复制缺陷重组病毒的详细方案可参见例如WO 95/14785、WO 96/22378、美国专利No.5,882,877、美国专利No.6,013,516、美国专利No.4,861,719、美国专利No.5,278,056和WO 94/19478。

“启动子”是控制序列。启动子通常是核酸序列中控制转录的起始和速率的区域。它可以含有调节蛋白和分子，例如RNA聚合酶和其它转录因子可以结合的遗传元件。短语“可操作定位”、“可操作连接”、“在控制下”和“在转录控制下”是指启动子相对于核酸序列处于正确的功能位置和/或方向，以控制该序列的转录的起始和表达。启动子可以与或可以不与“增强子”结合使用，所述增强子指参与核酸序列转录激活的顺式作用调节序列。

用于动物细胞表达载体的启动子和增强子的例子包括SV40的早期启动子和增强子(Mizukami and Itoh，1987)、莫洛尼小鼠白血病病毒的LTR启动子和增强子(Kuwana等人，1987)、免疫球蛋白H链的启动子(Mason等人，1985)和增强子(Gillies等人，1983)，等等。

为了有效翻译编码序列，也可以需要特定的起始信号。这些信号包括ATG起始密码子或相邻序列。可以需要提供外源翻译控制信号，包括ATG起始密码子。本领域普通技术人员将能够容易确定这点并提供必要的信号。

载体可以包括多克隆位点(MCS)，其是含有多个限制酶位点的核酸区域，其中任一个可以与标准重组技术结合使用来消化载体。(参见Carbonelli等人，1999，Levenson等人，1998，和Cocea，1997，通过引用并入本文)

大多数转录的真核RNA分子将进行RNA剪接以从初级转录物中除去内含子。含有基因组真核序列的载体可以需要供体和/或受体剪接位点，以确保转录物的正确加工以用于蛋白质表达。(参见Chandler等人，1997，其通过引用并入本文)

载体或构建体通常将包含至少一个终止信号。“终止信号”或“终止子”由参与RNA聚合酶特异性终止RNA转录物的DNA序列构成。因此，在某些实施方案中，考虑了终止RNA转录物产生的终止信号。体内可能必需终止子来达到期望的信息水平。在真核系统中，终止子区域还可含有允许新转录物的位点特异性切割，从而暴露多聚腺苷酸化位点的特定DNA序列。这标志着一种特化的内源聚合酶以向转录物的3’末端添加约200个A残基的区段(多聚A)。用此多聚A尾修饰的RNA分子表现得更稳定，并且得到更效率翻译。因此，在涉及真核生物的其它实施方案中，优选终止子包含用于RNA切割的信号，并且更优选终止子信号促进该信息的多聚腺苷酸化。

在表达中，特别是在真核表达中，通常将包含多聚腺苷酸化信号以实现转录物的适当多聚腺苷酸化。

为了使载体在宿主细胞中繁殖，它可以包含一个或多个复制起点位点(通常称为“ori”)，该位点是起始复制的特定核酸序列。或者，若宿主细胞是酵母，则可以采用自主复制序列(ARS)。

一些载体可以采用控制序列，该控制序列允许它在原核和真核细胞两者中复制和/或表达。本领域技术人员将进一步理解温育上述所有宿主细胞以维持它们并允许载体复制的条件。还应理解和知道将允许大规模生产载体，以及产生由载体编码的核酸及其关联多肽、蛋白质或肽的技术和条件。

本公开内容的另一方面涉及包含受体基因和诱导型报告物的一种或多种细胞，如本文所述的。在一些实施方案中，用至少一种根据本公开内容的核酸分子或载体遗传转化或转染原核或真核细胞。在一些实施方案中，用本公开内容的病毒颗粒感染细胞。

术语“转化”或“转染”是指将“外来”(即外在或胞外)基因、DNA或RNA序列导入宿主细胞中，使得宿主细胞会表达导入的基因或序列以产生期望的物质，通常是由导入的基因或序列编码的蛋白质或酶。接受并表达导入的DNA或RNA的宿主细胞已经经过“转化”或“转染”。根据本公开内容的表达载体的构建以及宿主细胞的转化或转染可以使用常规分子生物学技术进行。

认为与本发明一起使用的适合于核酸递送以用于转化/转染细胞、组织或生物的方法实际上包括可以将核酸(例如，DNA)导入细胞、组织或生物体中的任何方法，如本文所述或本领域普通技术人员已知的(例如Stadtfeld and Hochedlinger，Nature Methods 6(5)：329-330(2009)；Yusa等人，Nat.Methods 6：363-369(2009)；Woltjen等人，Nature458，766-770(2009年4月9日))。此类方法包括但不限于例如通过离体转染直接递送DNA(Wilson等人，Science，244：1344-1346，1989，Nabel and Baltimore，Nature 326：711-713，1987)，任选用Fugene6(Roche)或Lipofectamine(Invitrogen)进行，通过注射(美国专利No.5,994,624，5,981,274，5,945,100，5,780,448，5,736,524，5,702,932，5,656,610，5,589,466和5,580,859，每篇通过引用并入本文)，包括显微注射(Harland and Weintraub，J.Cell Biol.，101：1094-1099，1985；美国专利No.5,789,215，其通过引用并入本文)；通过电穿孔(美国专利No.5,384,253，其通过引用并入本文；Tur-Kaspa等人，Mol.Cell Biol.，6：716-718，1986；Potter等人，Proc.Nat′1 Acad.Sci.USA，81：7161-7165，1984)；通过磷酸钙沉淀(Graham and Van Der Eb，Virology，52：456-467，1973；Chen and Okayama，Mol.Cell Biol.，7(8)：2745-2752，1987；Rippe等人，Mol.Cell Biol.，10：689-695，1990)；通过使用DEAE-葡聚糖，然后是聚乙二醇(Gopal，Mol.Cell Biol.，5：1188-1190，1985)；通过直接声波加载(Fechheimer等人，Proc.Nat′l Acad.Sci.USA，84：8463-8467，1987)；通过脂质体介导的转染(Nicolau and Sene，Biochim.Biophys.Acta，721：185-190，1982；Fraley等人，Proc.Nat′l Acad.Sci.USA，76：3348-3352，1979；Nicolau等人，MethodsEnzymol.，149：157-176，1987；Wong等人，Gene，10：87-94，1980；Kaneda等人，Science，243：375-378，1989；Kato等人，J Biol.Chem.，266：3361-3364，1991)和受体介导的转染(Wu andWu，Biochemistry，27：887-892，1988；Wu and Wu，J.Biol.Chem.，262：4429-4432，1987)；以及此类方法的任何组合，其每篇通过引用并入本文。

V.细胞

如本文所用，术语“细胞”、“细胞系”和“细胞培养物”可以互换使用。所有这些术语还包括新鲜分离的细胞和体外培养或扩增的细胞两者。所有这些术语还包括它们的后代，该后代是任何和所有后续世代。应当理解，由于故意或无意的突变，所有后代可以是不同的。在表达异源核酸序列的情况下，“宿主细胞”或简单地“细胞”是指原核或真核细胞，并且其包括能够复制载体或表达由载体或整合的核酸编码的异源基因的任何可转化生物体。宿主细胞可以并且已经用作载体、病毒和核酸的接受体。宿主细胞可以是“转染的”或“转化的”，这是指将诸如重组蛋白编码序列的外源核酸转移或导入宿主细胞的过程。经转化的细胞包括原代受试细胞及其后代。

在某些实施方案中，可以在任何原核或真核细胞上进行核酸转移。在一些方面，本公开内容的细胞是人细胞。在其它方面，本公开内容的细胞是动物细胞。在一些方面，一种或多种细胞是癌细胞、肿瘤细胞或永生化细胞。在其它方面，细胞代表疾病模型细胞。在某些方面，细胞可以是A549、B细胞、B16、BHK-21、C2C12、C6、CaCo-2、CAP/、CAP-T、CHO、CHO2、CHO-DG44、CHO-K1、COS-1、Cos-7、CV-1、树突细胞、DLD-1、胚胎干(ES)细胞或衍生物、H1299、HEK、293、293T、293FT、Hep G2、造血干细胞、HOS、Huh-7、诱导性多能干(iPS)细胞或衍生物、Jurkat、K562、L5278Y、LNCaP、MCF7、MDA-MB-231、MDCK、间充质细胞、Min-6、单核细胞、Neuro2a、NIH 3T3、NIH3T3L1、K562、NK-cells、NS0、Panc-1、PC12、PC-3、外周血细胞、浆细胞、原代成纤维细胞、RBL、Renca、RLE、SF21、SF9、SH-SY5Y、SK-MES-1、SK-N-SH、SL3、SW403、刺激物触发的多能性获得(Stimulus-triggered Acquisition of Pluripotency，STAP)细胞或衍生物SW403、T细胞、THP-1、肿瘤细胞、U2OS、U937、外周血淋巴细胞、扩充的T细胞、造血干细胞或Vero细胞。在一些实施方案中，细胞是HEK293T细胞。

如本文所用，术语“传代”意图指分裂细胞以从先前存在的细胞产生大量细胞的过程。在本文所述的任何步骤之前或之后，细胞可以传代多次。传代涉及分裂细胞并将少量转移到每个新容器中。对于粘附培养，首先需要分离细胞，通常使用胰蛋白酶-EDTA的混合物进行分离。然后，可以使用少量分离的细胞接种新的培养物，而弃去剩余物。也可以通过将所有细胞分配到新鲜的烧瓶中容易地扩大培养细胞的量。可以将细胞保持培养并在允许细胞复制的条件下温育。在一些实施方案中，将细胞保持于允许细胞进行1、2、3、4、5、6、7、8、9、10或更多轮细胞分裂的培养条件。

在一些实施方案中，可以对细胞进行有限稀释方法以使细胞的克隆群体扩充。限制稀释克隆的方法是本领域技术人员公知的。已经描述了此类方法，例如用于杂交瘤，但是可以应用于任何细胞。此类方法记载于(Cloning hybridoma cells by limitingdilution，Journal of tissue culture methods，1985，第9卷，第3期，第175-177页，JoanC.Rener，Bruce L.Brown，and Roland M.Nardone)，其通过引用并入本文。

本公开内容的方法包括细胞的培养。培养悬浮和粘附细胞的方法是本领域技术人员公知的。在一些实施方案中，使用商品化的细胞培养容器和细胞培养基在悬浮液中培养细胞。可在一些实施方案中使用的商品化培养容器的例子包括ADME/TOX板、细胞室载玻片和盖玻片、细胞计数设备、细胞培养表面、Corning HYPERFlask细胞培养容器、包被的培养皿、Nalgene Cryoware、培养室、培养皿、玻璃培养瓶、塑料培养瓶、3D培养形式、培养多孔板、培养板插入物、玻璃培养管、塑料培养管、可堆叠细胞培养容器、低氧培养室、培养皿和烧瓶载体、Quickfit培养容器、使用滚瓶的放大细胞培养、旋转瓶、3D细胞培养或细胞培养袋。

在其它实施方案中，可以使用本领域技术人员公知的组分配制培养基。培养细胞的配制剂和方法在以下参考文献中详细描述：Short Protocols in Cell BiologyJ.Bonifacino等人编，John Wiley&Sons，2003，第826页；Live Cell Imaging：ALaboratory Manual D.Spector&R.Goldman编，Cold Spring Harbor Laboratory Press，2004，第450页；Stem Cells Handbook S.Sell编，Humana Press，2003，第528页；AnimalCell Culture：Essential Methods，John M.Davis，John Wiley&Sons，Mar 16，2011；BasicCell Culture Protocols，Cheryl D.Helgason，Cindy Miller，Humana Press，2005；HumanCell Culture Protocols，Series：Methods in Molecular Biology，第806卷，Mitry，Ragai Ｒ.；Hughes，Robin D.(编)，第3版2012，XIV，435第89页，Humana Press；CancerCell Culture：Method and Protocols，Cheryl D.Helgason，Cindy Miller，HumanaPress，2005；Human Cell Culture Protocols，Series：Methods in Molecular Biology，第806卷，Mitry，Ragai Ｒ.；Hughes，Robin D.(编)，第3版2012，XIV，435第89页，HumanaPress；Cancer Cell Culture：Method and Protocols，Simon P.Langdon，Springer，2004；Molecular Cell Biology.第4版，Lodish H，Berk A，Zipursky SL等人，New York：W.H.Freeman；2000.，第6.2节Growth of Animal Cells in Culture，所有这些文献均通过引用并入本文。

VI.核酸的基因组整合

A.靶向整合

本公开内容提供了靶向核酸整合的方法。在本文和本领域中，这也称为“基因编辑”。在一些实施方案中，通过使用DNA消化剂/多核苷酸修饰酶，例如位点特异性重组酶和/或靶向内切核酸酶来实现靶向整合。术语“DNA消化剂”指能够切割核酸的核苷酸亚基之间的键(即磷酸二酯键)的试剂。

在一方面，本公开内容包括靶向整合。一种实现这点的方式是通过使用外源核酸序列(即，着陆垫)，其包含用于至少一种多核苷酸修饰酶，例如位点特异性重组酶和/或靶向内切核酸酶的至少一种识别序列。位点特异性重组酶是本领域中公知的，并且通常可以称为转化酶、解离酶或整合酶。位点特异性重组酶的非限制性实例可包括λ整合酶、Cre重组酶、FLP重组酶、γ-δ解离酶、Tn3解离酶、ΦC31整合酶、Bxb1-整合酶和R4整合酶。位点特异性重组酶识别特异性识别序列(或识别位点)或其变体，所有这些都是本领域中公知的。例如，Cre重组酶识别LoxP位点，并且FLP重组酶识别FRT位点。

考虑了的靶向内切核酸酶包括锌指核酸酶(ZFN)、大范围核酸酶、转录激活物样效应物核酸酶(TALEN)、CRIPSR/Cas样内切核酸酶、I-Tevl核酸酶或相关单体杂合体、或人工靶向DNA双链断裂诱导剂。示例性的靶向内切核酸酶在下面进一步描述。例如，通常，锌指核酸酶包含DNA结合域(即，锌指)和切割域(即，核酸酶)，两者都在下面描述。多核苷酸修饰酶的定义中还包括本领域技术人员已知的任何其它有用的融合蛋白，例如可以包含DNA结合域和核酸酶。

着陆垫序列是包含至少一个识别序列的核苷酸序列，该识别序列被特异性多核苷酸修饰酶，例如位点特异性重组酶和/或靶向内切核酸酶选择性结合和修饰。通常，着陆垫序列中的识别序列不内源性存在于要修饰的细胞的基因组中。例如，在要修饰的细胞是CHO细胞的情况下，内源CHO基因组中不存在着陆垫序列中的识别序列。可以通过选择在靶定细胞的基因组内不内源性存在的高效率核苷酸修饰酶的识别序列来改善靶向整合的速率。不内源性存在的识别序列的选择也减少潜在的脱靶整合。在其它方面，可以期望使用要修饰的细胞中天然的识别序列。例如，在着陆垫序列中采用多个识别序列的情况下，一个或多个可以是外源的，而一个或多个可以是天然的。

本领域普通技术人员可以容易地确定由位点特异性重组酶和/或靶向内切核酸酶结合和切割的序列。

多个识别序列可以存在于单一着陆垫中，允许着陆垫被两种或更多种多核苷酸修饰酶依次靶向，使得可以插入两种或更多种独特的核酸(尤其包含受体基因和/或诱导型报告物)。或者，着陆垫中多个识别序列的存在允许将相同核酸的多个拷贝插入着陆垫中。当将两个核酸靶向到单一着陆垫时，着陆垫包含第一多核苷酸修饰酶(例如第一ZFN对)的第一识别序列和第二多核苷酸修饰酶(例如第二ZFN对)的第二识别序列。或者/另外，包含一个或多个识别序列的个别着陆垫可以在多个位置处整合。可以在用有效载荷的多个拷贝转化的细胞中观察到增加的蛋白质表达。或者，当(无论在相同还是不同的着陆垫中)插入包含不同表达盒的多个独特核酸序列时，可以同时表达多个基因产物。无论核酸的数目和类型如何，当靶向内切核酸酶是ZFN时，示例性ZFN对包括hSIRT、hRSK4和hAAVS1，具有伴随的识别序列。

一般而言，用于促进靶向整合的着陆垫可以包含至少一个识别序列。例如，着陆垫可以包含至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个或至少10个或更多个识别序列。在包含超过一个识别序列的实施方案中，识别序列可以是彼此独特的(即被不同多核苷酸修饰酶识别)、相同的重复序列或重复序列和独特序列的组合。

本领域普通技术人员将容易理解，用作着陆垫的外源核酸还可包含除识别序列以外的其它序列。例如，可以有利的是包含一种或多种编码如本文所述的可选择或可筛选基因的序列，例如抗生素抗性基因、代谢选择标志物或荧光蛋白。也可以存在其它补充序列，例如转录调节和控制元件(即启动子、部分启动子、启动子陷阱、起始密码子、增强子、内含子、绝缘子和其它表达元件)的使用。

除了选择合适的识别序列之外，选择具有高切割效率的靶向内切核酸酶还改善着陆垫的靶向整合的速率。可以使用本领域公知的方法来测定靶向内切核酸酶的切割效率，包括例如使用测定法诸如CEL-1测定法或PCR扩增子中插入/缺失(Indel)的直接测序。

在本文公开的方法和细胞中使用的靶向内切核酸酶的类型可以并且将变化。靶向内切核酸酶可以是天然蛋白质或工程化蛋白质。靶向内切核酸酶的一个例子是锌指核酸酶，其在下面更为详细讨论。

可以使用的靶向内切核酸酶的另一个例子是包含至少一个核定位信号的RNA引导的内切核酸酶，所述核定位信号允许内切核酸酶进入真核细胞的核内。RNA指导的内切核酸酶还包含至少一个核酸酶域和与指导RNA相互作用的至少一个域。通过引导RNA将RNA引导的内切核酸酶引导至特定的染色体序列，使得RNA引导的内切核酸酶切割特定的染色体序列。由于引导RNA提供了靶向切割的特异性，因此RNA引导的内切核酸酶的内切核酸酶是通用的，并且可以与不同的引导RNA一起使用以切割不同的靶染色体序列。下面更为详细讨论了示例性的RNA引导的内切核酸酶蛋白。例如，RNA引导的内切核酸酶可以是CRISPR/Cas蛋白或CRISPR/Cas样融合蛋白，源自成簇规则散布短回文重复序列(CRISPR)/CRISPR相关(Cas)系统的RNA引导的内切核酸酶。

靶向内切核酸酶也可以是大范围核酸酶。大范围核酸酶是以大识别位点为特征的内切脱氧核糖核酸酶，即，识别位点的范围通常为约12个碱基对至约40个碱基对。由于此要求，识别位点通常在任何给定的基因组中仅出现一次。在大范围核酸酶中，称为LAGLIDADG的归巢内切核酸酶家族已成为研究基因组和基因组工程的重要工具。可以通过使用本领域技术人员公知的技术来修饰大范围核酸酶的识别序列将它靶向到特定的染色体序列。参见例如Epinat等人，2003，Nuc.Acid Res.，31(11)：2952-62和Stoddard，2005，QuarterlyReview of Biophysics，第1-47页。

可以使用的靶向内切核酸酶的另一个例子是转录激活物样效应物(TALE)核酸酶。TALE是来自植物病原体黄单胞菌的转录因子，其可以容易进行工程化改造以结合新的DNA靶标。TALE或其截短形式可以与内切核酸酶(例如FokI)的催化域连接，以产生称为TALE核酸酶或TALEN的靶向内切核酸酶。参见例如Sanjana等人，2012，Nature Protocols 7(1)：171-192；Bogdanove A J，Voytas D F.，2011，Science，333(6051)：1843-6；Bradley P，Bogdanove A J，Stoddard B L.，2013，Curr Opin Struct Biol.，23(1)：93-9。

另一个示例性的靶向内切核酸酶是位点特异性核酸酶。特别地，位点特异性核酸酶可以是其识别序列在基因组中很少出现的“稀有”内切核酸酶。优选地，位点特异性核酸酶的识别序列在基因组中仅出现一次。或者，靶向核酸酶可以是人工靶向的DNA双链断裂诱导剂。

在一些实施方案中，可以通过使用整合酶实现靶向整合。例如，phiC31整合酶是在噬菌体phiC31的基因组内编码的序列特异性重组酶。phiC31整合酶介导两个称为附着位点(att)的34个碱基对的序列(一个位于噬菌体中，另一个位于细菌宿主中)之间的重组。已显示该丝氨酸整合酶在包括哺乳动物细胞在内的许多不同细胞类型中有效发挥功能。在phiC31整合酶存在下，可以通过在与天然attP位点(称为假attP位点)具有序列相似性的位点处重组将含有attB的供体质粒单向整合到靶基因组中。phiC31整合酶可以以单一拷贝整合任何大小的质粒，并且不需要辅因子。整合的转基因是稳定表达且可遗传的。

在一个实施方案中，通过使用转座酶实现本公开内容的多核苷酸的基因组整合。例如，可以使用设计用于将精确定义的DNA序列引入脊椎动物的染色体中的合成DNA转座子(例如“Sleeping Beauty”转座子系统)。Sleeping Beauty转座子系统由Sleeping Beauty(SB)转座酶和转座子构成，所述转座子经过设计以将特定的DNA序列插入脊椎动物的基因组中。DNA转座子以简单的剪切粘贴方式从一个DNA位点转移到另一个位点。转座是一种精确的过程，其中将定义的DNA区段从一个DNA分子中切除，并移至相同或不同DNA分子或基因组中的另一个位点。

与所有其它Tcl/mariner型转座酶一样，SB转座酶将转座子插入接受体DNA序列的TA二核苷酸碱基对中。插入位点可以在同一DNA分子中的其它位置，或者在另一个DNA分子(或染色体)中。在包括人在内的哺乳动物基因组中，有约2亿个TA位点。在转座子整合过程中，TA插入位点是重复的。TA序列的此种重复是转座的标志，并在某些实验中用于确定机理。转座酶可以在转座子内编码，或者转座酶可以由另一个来源提供，在此情况下，转座子成为非自主元件。非自主转座子作为遗传工具最为有用，因为插入后它们不能独立继续切除和重新插入。在人基因组和其它哺乳动物基因组中鉴定的所有DNA转座子都是非自主的，因为即使它们含有转座酶基因，该基因是非功能的，并且无法产生可动员转座子的转座酶。

VII.使用方法

本文描述的测定法使大规模筛选变得既节省时间又节省成本。此外，本文描述的测定法可用于筛选配体的中靶和脱靶效应，可用于测定一种或多种受体的变体对特定配体或配体组的活性，可用于定位受体中配体结合所需要的重要残基，以及可用于测定受体中的哪些残基对于配体结合是不重要的。

在某些方面，测定方法涉及其中所述受体是一种受体的变体的测定法。在一些实施方案中，每种变体包含相对于野生型蛋白序列的一个取代或由相对于野生型蛋白序列的一个取代组成。在一些实施方案中，与野生型氨基酸序列相比，每种变体包含至少、至多或正好1、2、3、4、5、6、7、8、9或10个取代(或其中任何可导出的范围)或由至少、至多或正好1、2、3、4、5、6、7、8、9或10个取代(或其中任何可导出的范围)组成。在一些方面，所述方法包括测定受体群体对配体的活性，其中受体群体包含相同受体的至少两种变体，并且其中响应配体测定活性。在一些方面，受体群体包含筛选的至少、至多或约2、10、100、200、300、400、500、1000、1500、2000、3000、4000或5000种受体(或其中任何可导出的范围)。在某些情况下，筛选至少、至多或正好1、2、3、4、5、6、7、8、9或10种配体(或其中任何可导出的范围)。在一些方面，响应至少、至多或正好1、2、3、4、5、6、7、8、9或10种配体(或其中任何可导出的范围)筛选至少、至多或约2、10、100、200、300、400、500、1000、1500、2000、3000、4000或5000种受体(或其中任何可导出的范围)。在某些实施方案中，该测定法可用于基于测定的变体受体对配体的活性来预测患者对配体的应答。例如，本文所述的测定法可用于预测变体受体对配体的治疗应答。然后，可以将该信息用于治疗方法中以治疗具有变体受体的患者。在一些实施方案中，方法包括用配体治疗患者，其中患者已确定具有变体受体。在一些实施方案中，已经通过本文描述的方法测定变体受体对配体的活性。

在某些方面，测定法用于测定一类受体对一种或多种配体的活性。

在一些实施方案中，受体的类别是嗅觉、GPCR、核激素、激素或催化受体。在一些实施方案中，受体是肾上腺素受体，例如α或β肾上腺素能受体或α-1、α-2、β-1、β-2或β-3肾上腺素能受体，或α-1A、α1B、α-1D、α-2A、α-2B或α-2C肾上腺素能受体。在一些实施方案中，受体或受体类别是本文所述的。

VIII.试剂盒

本公开内容的某些方面还涉及包含本公开内容的核酸、载体或细胞的试剂盒。试剂盒可用于实施本公开内容的方法。在一些实施方案中，试剂盒可用于评估受体基因或一组受体基因的激活。在一些实施方案中，试剂盒可用于评估单个基因的变体。在某些实施方案中，试剂盒含有、至少含有或至多含有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、500、1,000或更多种核酸探针、引物或合成RNA分子，或其中可导出的任何值或范围和组合。在一些实施方案中，存在有用于评估配体对受体的激活或结合的试剂盒。在一些实施方案中，包含通用探针或引物以扩增、鉴定或测序条形码或受体。此类试剂也可以用于产生或测试可以在筛选中使用的宿主细胞。

在某些实施方案中，试剂盒可包含用于分析细胞形态和/或表型的材料，例如组织学载玻片和试剂、组织学染剂、酒精、缓冲液、组织包埋介质、石蜡、甲醛和组织脱水剂。

试剂盒可包含可个别包装或放置在容器中的组分，所述容器例如管、瓶、小瓶、注射器或其它合适的容器装置。

个别组分也可以以浓缩的量在试剂盒中提供；在一些实施方案中，组分以其在具有其它组分的溶液中一样的相同浓度个别提供。组分的浓度可以以1x、2x、5x、10x或20x或更多提供。

设想使用本公开内容的探针、多肽或多核苷酸检测剂进行药物发现的试剂盒。

在某些方面，一些试剂盒实施方案中包含阴性和/或阳性对照剂。对照分子可用于验证转染效率和/或控制转染诱导的细胞变化。

本公开内容的实施方案包括用于通过评估样品的核酸或多肽概况来分析病理学样品的试剂盒，该试剂盒在合适的容器装置中包含两种或更多种用于检测表达的多核苷酸的RNA探针或引物。此外，探针或引物可以是标记的。标记物是本领域已知的，并且也在本文中描述。在一些实施方案中，试剂盒可还包含用于标记探针、核酸和/或检测剂的试剂。试剂盒还可包括标记试剂，包括胺修饰的核苷酸、聚(A)聚合酶和聚(A)聚合酶缓冲液中的至少一种。标记试剂可包括胺反应性染料。试剂盒可包含以下任何一种或多种材料：酶、反应管、缓冲液、去污剂、引物、探针、抗体。在一些实施方案中，这些试剂盒包含用于进行RNA提取、RT-PCR和凝胶电泳的所需装置。试剂盒中还包含进行测定法的说明。

试剂盒还可包括使用试剂盒评估表达的说明、将表达数据转化为表达值的手段和/或分析表达值以产生配体/受体相互作用数据的手段。

试剂盒可包含带有标签的容器。合适的容器包括例如瓶、小瓶和试管。容器可以由多种材料，例如玻璃或塑料形成。容器可以容纳组合物，其包含可用于本公开内容的方法的探针。试剂盒可包括上述容器和一个或多个其它容器，其包含从商业和用户角度考虑期望的材料，包括缓冲液、稀释剂、滤器、针、注射器和带有使用说明的包装插页。

IV.实施例

包括以下实施例以说明本公开内容的优选实施方案。本领域技术人员应理解，以下实施例中公开的技术代表发明人发现在本公开内容的实践中良好发挥功能的技术，因此可以认为构成其实施的优选方式。然而，根据本公开内容，本领域技术人员应当理解，可以在所公开的特定实施方案中进行许多改变，并且在不脱离本公开内容的精神和范围的情况下仍可获得相似或类似的结果。

实施例1 -多路复用的气味物-受体筛选系统。

哺乳动物嗅觉是一个高度复杂的过程，并且可以说是理解最少的感官。嗅觉受体(OR)是气味感知的第一层。人OR是一组400种G蛋白偶联受体(GPCR)，它们在位于鼻上皮中的神经元中单等位表达。气味物以多对多的方式结合受体，该模式被传递到嗅球，并在皮层中转化为感知。仅约5％的人类OR具有对它们鉴定的高亲和力配体，大量的孤儿受体抑制了询问控制嗅觉的下游神经生物学的能力。先前的脱孤尝试利用基于异源细胞的测定法，该测定法个别筛选每个气味物-受体对。大量潜在的受体-气味物组合以及实现异源OR表达的困难限制了“一次一个”方法的通量。取而代之，本发明人工程化改造稳定的表达OR的细胞系，其实现多路复用的气味物-受体筛选。

为了测量受体-气味物相互作用，本发明人使遗传报告物适用于HEK293T细胞中的cAMP信号传导。在气味物结合时，g蛋白信号传导刺激cAMP产生，其导致转录因子CREB磷酸化。CREB与短串联重复序列CRE结合，并开启下游报告物基因(通常是萤光素酶)的转录。修改了测定法将DNA条形码纳入报告物基因的3’UTR中，该条形码与在同一质粒上表达的文库中的一个OR独特关联(图1)。每个细胞与单个文库成员整合以确保cAMP信号转导不触发对应于不被气味物结合但存在于同一细胞内的受体的条形码的表达。发明人将细胞系接种到96孔板中，用不同的气味物诱导每孔，并对添加条形码的转录物进行测序。发明人将每个条形码的相对丰度转换为热图，该热图显示气味物对每种受体的亲和力。

用于GPCR激活的典型遗传报告物测定法个别共转染受体和报告物。为了将每个条形码定位到其相应的OR，将需要在单个质粒上表达用于测定法的所有组分，从而能够通过测序将条形码和OR关联起来。发明人配置了质粒以表达所有必需的组分(图3)。针对这两种构造，发明人用已知的高亲和力配体瞬时筛选了两种OR，MOR42-3和MOR9-1的浓度范围，并观察到相当的报告物激活。

多路复用策略需要OR文库的稳定的克隆整合。最初，发明人决定使用Bxb1重组，因为它使每个文库成员能够在单罐反应中以每个细胞单一拷贝整合。发明人将含有Bxb1attp重组酶位点的“着陆垫”工程化改造入HEK293T细胞的H11安全港基因座中。图4)。工程化细胞系称为Mukku1a(表1)。Bxb1重组不可逆整合含有互补attb识别位点的质粒DNA，并破坏基因组attp序列，从而限制了每个细胞的单一重组。当在着陆垫中诱导MOR42-3时，发明人无法观察到报告物激活。然而，当从着陆垫表达时，β-2肾上腺素能受体(一种也能激活腺苷酸环化酶的规范性GPCR)在诱导时稳健激活报告物。

修饰	名称
		着陆垫	Mukku1a
着陆垫，Tet rTA	Mukku2a
		着陆垫，Tet rTA，辅助因子	Mukku3a

众所周知，OR难以异源表达并且从未报告稳定的异源表达。我们假设OR的稳定的组成性表达可以导致许多可能的下调途径，并决定尝试诱导型表达。发明人工程化改造Mukku1a细胞以表达反向的Tet转录激活物，并用Tet-On诱导型启动子替换驱动OR表达的启动子(图5)。诱导型系统瞬时达到了与先前系统相当的报告物激活，但是发明人仍无法观察到在着陆垫中时报告物的表达。下一个假设是，单一OR基因不足以实现激活遗传报告物所必需的表达。本发明人在遗传构建体侧翼放置中间末端重复序列，并使用转座酶整合质粒(图6)。在组成性OR表达下，报告物仍然不应答气味物。出乎意料的是，使报告物转座和诱导型控制OR表达的组合恢复报告物的气味物应答。QPCR证实转座子以平均每个细胞4-6个拷贝整合。

当在异源系统中瞬时表达时，许多OR需要辅助因子的共表达来进行细胞膜运输和适当的信号转导(图7)。预测这对于稳定表达和基因组整合的4种辅助因子转基因成问题：RTP1S和RTP2(增加表面表达的伴侣蛋白)、G_αolf(与OR天然相互作用的G蛋白α亚基)和Ric8b(与G_αolf缔合的鸟嘌呤核苷酸交换因子)。发明人将在Tet诱导型调节下的这4种因子合并并转座到Mukku2a细胞中。为了创建具有有力的OR表达能力的细胞系，本发明人分离了单一克隆并对它们瞬时筛选针对2种OR，Olfr62和OR7D4(先前已知需要辅助因子用于异源功能表达)的遗传报告物激活。

将42种小鼠OR克隆到在报告物基因的3’UTR中含有随机条形码的转座子载体中，并对克隆进行测序以将条形码定位到每个受体。接下来，将每个构建体个别转座到Mukku3a细胞中，然后在转座后将细胞合并在一起。最终，整合的Mukku3a细胞在Tet-On系统的控制下诱导型表达辅助因子和OR两者(数据未显示)。发明人在蛋白质和转录物水平两者上测试了少数受体与已知配体，以确认稳定的细胞系将复制先前的受体-气味物关联并且对于大的受体分组可靠地起作用(图2A-B)。

为了使测定法适合于高通量筛选，开发出用于文库制备的96孔板相容性、裂解物内的方案(图8)。用自定义索引对板的每孔和板自身添加条形码。发明人针对我们的42受体文库筛选了4种不同浓度的96种气味物，产生16,128种独特的受体-配体相互作用。构建热图以显示在每种条件下每种受体的相对激活(图2C)。

气味物-受体相互作用空间是复杂且难以详细研究的。发明人开发了一种平台，该平台克服了异源OR表达的挑战并通过多路复用压缩了相互作用空间。该平台在经济和技术上实现了哺乳动物OR的大规模脱孤。

实施例2 -Smell-seq：用于解码嗅觉受体-配体相互作用的多路复用GPCR活性测定法

我们通过建立稳定的人细胞系报告物的文库，开发了用于多重受体-配体概况分析的平台，该文库可以通过高通量形式的下一代测序多重读取。此项技术推广到许多其它类别的受体，并允许药物相关GPCR的药物发现的高通量筛选。

小分子与受体之间的相互作用支持生物体感测并响应其内部状态和环境的能力。对于许多药物和天然产物，立即调控许多生物靶标功能的能力对其功效至关重要。此类多药理学难以研究，因为我们通常不知道哪种化学物质与哪些靶标相互作用。此种多对多的问题对于一次研究一种相互作用是艰巨的，并且在哺乳动物的嗅觉感官中尤为明显。

嗅觉是由称为嗅觉受体(OR)的一类G蛋白偶联受体(GPCR)介导的。GPCR是哺乳动物中小分子信号传导的核心参与者，并且被30％以上的FDA批准的药物靶向。OR是A类GPCR的大家族，它们已经在许多不同的进化背景中特化，在人、小鼠和大象中分别具有约396、1130和1948种完整受体。每种OR可以潜在与几乎无限数目的气味物相互作用，并且每种气味物具有多种OR。由于此种复杂性并且由于体外重演哺乳动物GPCR功能具有挑战性，绝大多数OR仍为孤儿的。另外，不存在任何OR的晶体结构，这妨碍了预测哪些气味物激活每种OR的计算工作。

在这里，我们报告了一种新的HTS相容性系统以针对哺乳动物OR文库多重表征小分子文库(图9A)。为此，我们开发了能够进行功能性OR表达的稳定细胞系(图11)和用于OR活性的多路复用报告物(图12)两者。最终的平台包含多拷贝、可诱导表达的OR，其位于具有OR运输和信号转导所需要的可诱导表达的蛋白质的工程化细胞系的背景内(图13)。每种OR的激活导致具有独特的15个核苷酸的条形码序列的报告转录物的表达。每个条形码鉴定OR，从而允许通过条形码的扩增子RNA-seq进行多路复用读出(图9A，图13)。使用此平台，我们已经筛选出至少42种不同的受体，并且我们已经将此平台适用于高通量筛选，其已经允许新的气味物对的发现。我们发现多拷贝整合和诱导型表达允许报告物激活。个别地，这些特征未产生应答；然而，它们的组合导致功能性的OR报告物细胞系，这证明了当单独使用多拷贝整合或诱导型表达时未发现协同应答。然后，我们诱导性表达G_alpha_olf、Ric8b、RTP1S、RTP2(图9B，图11)。为了工程化改造报告物构建体，我们使用了蛋白质运输标签来增加表面表达，添加DNA绝缘子序列以减少背景报告物激活，修饰cAMP应答元件(CRE)增强子以改善报告物信号，并将这些元件组合成单一可转座载体以加快细胞系形成(图12)。我们对三种鼠OR用已知的配体验证我们的系统，并观察到诱导和剂量依赖性激活(图9C)，包括以前难以表达的Olfr62。

修饰后，我们创建了42种表达鼠OR的细胞系的文库，并测试了激活的多路复用读出。我们首先通过Sanger测序将OR克隆并定位到其相应的条形码，并将质粒分别转座到HEK-293T细胞中，在选择后将细胞系汇集在一起(图10A)。为了指导多路复用测定法，我们在6孔培养皿中分配细胞文库，并添加已知激活特定OR的气味物(图14)；除3种OR外全部存在于足够的细胞中以获得可靠的激活估计。对测序读出的分析重演了先前鉴定的气味物-受体对，并且化学混合物适当地激活多种OR。令人感兴趣的是，我们发现测定法对于非特异性刺激细胞(不依赖于它们表达的OR)的化学物质，诸如直接腺苷酸环化酶刺激剂福司柯林是稳健的。由于此类化学物质等同地激活所有条形码，因此容易过滤掉此类有害化学物质。接下来，我们改编平台以进行96孔形式的高通量筛选。为了降低试剂成本和测定时间，我们开发了一种裂解物内逆转录方案，并使用双重索引化来独特鉴定每孔(参见方法)。使用这些改进，我们能够重演已知的气味物-受体对的剂量-应答曲线(图10B，图14)。我们观察到在相同处理但生物学上独立的孔之间的可再现结果(图15-16)。

随后，我们针对OR细胞文库一式三份筛选三种浓度的182种气味物，相当于约85,000个个别的萤光素酶测定法，包括对照(图10A，表2)。测定法中的每个96孔板含有阳性对照气味物和用于标准化的溶剂DMSO孔(图16)。我们使用EdgeR软件包，基于条形码计数的负二项式模型测定差异响应OR。我们发现114种OR-气味物相互作用(可能的7,200种中)(其中81种是新的)以及与15种孤儿受体的24种相互作用(图10C，图17和补充表4)(FDR＝1％；Benjamini-Hochberg校正)。总体上，39种受体中的28种由至少一种气味物激活，并且182种气味物中的68种激活至少一种OR(表4)。我们选择至少1.2倍诱导的37种相互作用，以使用先前开发的具有几个重要差异的瞬时OR测定法个别进行测试(图18)。在1％的FDR时称为命中的28种相互作用中，它们中的21种在此正交系统中重复(图17)。即使不重复的7种中的一些可能是真实的。例如，我们的测定法登记了两个具有高度化学相似性的MOR19-1命中(水杨酸甲酯和水杨酸苄酯)，提示它们可能不是假阳性(图18)。另外，9种相互作用中未通过1％FDR阈值的三种在正交测定法中显示激活，指示保守的阈值。先前的大规模OR脱孤研究使用某些相同的受体和化学物质，并且我们发现在我们的平台上也检测到9/12的具有低于100μM的EC50的其报告的相互作用，尽管我们未鉴定大多数先前的低亲和力相互作用(图19)。相反，我们也检测到此先前研究测试的14种相互作用，但是称为阴性。最后，我们的测定法基本上重演了不相互作用的气味物和OR的组合(493/507)。

我们发现具有相似特征的化学物质激活相似的OR组，包括我们在此项研究中脱孤的那些受体。例如，以前的孤儿MOR13-1被四种具有附着于坚硬的不可旋转支架的极性基团的化学物质激活(在三种情况下)。另一个例子是MOR19-1，它对水杨酸酯官能团具有明显的亲和力。为了更好地了解化学相似性如何在不依赖于不完整且有时任意的化学描述符的情况下与受体激活关联，我们使用了先前经过验证的计算自动编码器来表示约292维潜在空间中的每种化学物质，允许化学结构的几乎无损的压缩(数据未显示)。我们发现激活相同OR的化学物质倾向于明显聚簇(图10D，图20)。例如，MOR5-1配体在潜在空间中聚簇，并且显示长链(＞5个碳)醛和羧酸的10/13种气味物激活受体。此外，MOR170-1表现出广泛的激活模式：结合约50％的所有含苯环和羰基或醚基的气味物，并且此模式在潜在空间中也得到反映。许多但不是全部的受体。整个相互作用组的激活景象提示某些OR被断开的化学子空间激活(图20)。了解激活每种OR的化学物质的空间为预测新的气味物-OR相互作用奠定了基础。

我们对化学物质(无论它们是内源性配体、药物、天然产物还是气味物)如何与潜在靶标相互作用的不完全了解限制了我们合理开发具有多种可能靶标和功能途径的新物质的能力，由于特定的化学物质可以与多个靶标相互作用，这是挑战性的。这在自然和治疗背景中都变得越来越明显。我们预计Smell-seq可以扩展到396个成员的OR全集，并全面定义对任何气味物的OR应答。Smell-seq的每孔的大致成本与现有测定法相当，但多路复用大大降低每种询问的相互作用的成本和劳动。更选择性命中特定靶标或广泛激活受体集的工作利用依赖大量数据集的机器学习方法。多重方法如Smell-seq提供了可扩展的解决方案，以生成此等级的质量数据。

表格

表2：本研究中筛选的嗅觉受体

表3：本研究中筛选的气味物

表4：称为命中的气味物-受体对

表5：本研究中使用的引物和序列

方法

1.气味物-受体激活萤光素酶测定法(瞬时)

如先前所述(Zhuang和Matsunami 2008)，使用Dual-Glo萤光素酶测定系统(Promega)来测量OR-气味物应答。将HEK293T细胞(ATCC#11268)以在100ul DMEM(ThermoFisher Scientific)中每孔7,333个细胞的密度在聚-D-赖氨酸包被的白色96孔板(Corning)中分配。24小时后，使用lipofectamine 2000(Thermo Fisher Scientific)用5ng/孔的编码OR的质粒和10ng/孔的由环状AMP应答元件驱动的萤光素酶或10ng/孔的编码OR和萤光素酶基因两者的质粒，和在这两种情况下5ng/孔的编码Renilla萤光素酶的质粒转染细胞。用辅助因子进行的实验包括5ng/孔的编码RTP1S(基因ID：132112)和RTP2(基因ID：344892)的质粒。用添加到转染培养基的1ug/ml多西环素(Sigma-Aldrich)转染诱导表达的OR。在DMSO或乙醇中建立10-100mM的气味物储液。转染后24h，除去转染培养基，并用25ul/孔的从储液稀释到CD293(Thermo FisherScientific)中的适当浓度的气味物替换。气味物刺激后4小时，按照制造商的说明施用Dual-Glo萤光素酶测定试剂盒。使用M1000读板仪(Tecan)测量发光。将所有发光值相对于Renilla萤光素酶活性进行标准化，以控制给定孔中的转染效率。使用Microsoft Excel和R分析数据。

2.气味物-受体激活萤光素酶测定法(整合)

将用组合的受体/报告物质粒整合的HEK293T和HEK293T衍生的细胞以100uL DMEM中的7333个细胞/孔的密度在聚-D-赖氨酸包被的96孔板中分配。24小时后，将1ug/ml多西环素添加到孔培养基。气味物刺激、萤光素酶试剂添加和发光测量以与瞬时测定法相同的方式进行。在无多西环素添加的情况下以相同的方式测定组成性表达的OR。使用MicrosoftExcel和R分析数据。

3.气味物刺激和RNA提取以用于引导规模多路复用气味物筛选。

将用组合的受体/报告物质粒转座的HEK293T和HEK293T衍生的细胞以200k细胞/孔的密度在2mL DMEM中在6孔板中分配。24小时后，将1ug/ml多西环素添加到孔培养基。在DMSO或乙醇中建立了10-100mM的气味物储液。添加多西环素后24小时，将气味物在OptiMEM中稀释，吸出培养基，并用1mL气味物-OptiMEM溶液替换。气味物刺激后3小时，吸出气味物培养基，并将600uL缓冲液RLT(Qiagen)添加到每孔。用Qiashredder组织和细胞均质器(Qiagen)裂解细胞，并使用RNEasy MiniPrep试剂盒(Qiagen)根据制造商的方案使用可选的柱上DNA酶步骤纯化RNA。

4.引导规模文库制备和RNA-seq

使用添加条形码的报告物基因的基因特异性引物(OL003)，用Superscript IV(Thermo-Fisher)逆转录每个样品5ug的总RNA。反应条件如下：退火：[65℃达5分钟，0℃达1分钟]延伸：[52℃达60分钟，80℃达10分钟]。使用HiFi Master Mix(Kapa Biosystems)将cDNA文库体积的10％扩增5个循环(OL004F和R)。反应和循环条件如下进行优化：95℃达3分钟，98℃达20秒，59℃达15秒和72℃达10秒的5个循环，然后延长72℃达1分钟。使用DNAClean&Concentrator试剂盒(Zymo Research)将PCR产物纯化成10ul，然后用CFX ConnectThermocycler(Biorad)使用SYBR FAST qPCR Master混合物(Kapa Biosystems)扩增1ul每种样品(OL005F和R)以测定文库扩增必需的PCR循环数。反应和循环条件如下进行优化：95℃达3分钟，95℃达3秒和60℃达20秒的40个循环。qPCR后，在与第一次扩增相同的循环条件下使用用于qPCR的相同引物第二次扩增5ul预扩增的cDNA文库，比先前测定的Cq大4个循环。然后使用Zymoclean凝胶DNA回收试剂盒(Zymo Research)从1％琼脂糖凝胶中凝胶分离PCR产物。使用Tape Station 2200(Agilent)对文库浓度进行定量，然后在20％PhiX掺杂的情况下等摩尔加载到Hi-Seq 3000上，并使用定制引物进行测序：读段1(OL003)和i7索引(OL006)。

5.OR文库克隆

使用等温装配装置用Gibson Assembly Hifi Mastermix(SGI-DNA)创建主链质粒(除OR和条形码外的所有遗传元件)。使用HiFi Master Mix用含有15个随机核苷酸以创建条形码序列的引物(OL007F和R)扩增短片段。反应和循环条件如下进行优化：95℃达3分钟，随后98℃达20秒，60℃达15秒和72℃达20秒的35个循环，然后延长72℃达1分钟。用限制酶MluI和AgeI(New England Biolabs)消化扩增子和主链质粒，并用T4 DNA连接酶(NewEngland Biolabs)连接在一起。将DH5α大肠杆菌感受态细胞(New England Biolabs)直接转化到具有抗生素的液体培养物中，以维持条形码文库的多样性。

使用HiFi Master Mix，用引物(OL008)个别扩增OR基因，所述引物对添加条形码的主链质粒添加同源性。反应和循环条件如下进行优化：95℃达3分钟，98℃达20秒，61℃达15秒和72℃达30秒的35个循环，然后延长72℃达1分钟。用DNA Clean and Concentrator纯化扩增的OR，并且合并在一起。使用NdeI和SbfI消化添加条形码的主链质粒，并使用等温装配装置用Gibson Assembly Hifi Mastermix将OR扩增子合并物克隆到其中。用装配装置转化DH5α大肠杆菌感受态细胞，并挑选抗生素抗性克隆，并在96孔板上培养过夜。质粒DNA用Zyppy-96质粒Miniprep试剂盒(Zymo Research)制备。对质粒进行Sanger测序(OL109-111)，以既使条形码与报告物基因相关联并鉴定无错OR。

6.OR文库基因组整合

将HEK293T细胞和HEK293T衍生的细胞在2ml DMEM中以350k细胞/孔的密度在6孔板中接种。接种后24小时，根据制造商的说明，用编码受体/报告物转座子的质粒和SuperPiggyBac转座酶(Systems Bioscience)转染细胞。每孔用Lipofectamine 3000转染1ug转座子DNA和200ng转座酶DNA。转染3天后，将细胞以1∶10传代到6孔板中，并且传代后一天将8ug/ml杀稻瘟素添加到细胞。在选择下培养细胞7-10天。将OR文库个别转座，并以相等的细胞数合并在一起。

7.辅助因子细胞系产生

根据OR文库整合部分中的转座方案，用等摩尔合并的由Tet-On启动子诱导型驱动的编码辅助因子基因RTP1S、RTP2、Gαolf(基因ID：2774)和Ric8b(基因ID：237422)的质粒转座HEK293T衍生的细胞。用2μg/ml嘌呤霉素(Thermo Fisher)选择细胞。选择后，将细胞以0.5个细胞/孔的密度在96孔板中接种。3天后检查孔的单一集落，并在7天后扩充至24孔板。通过用瞬时萤光素酶测定法筛选克隆的Olfr62和OR7D4的稳健激活来筛选克隆的辅助因子表达(图11)。对于多路复用筛选，建立了对这两种受体具有最高倍数激活并且无明显生长缺陷的克隆。

8.转座子拷贝数验证

用Quick-gDNA Miniprep试剂盒从用OR报告物载体转座的细胞和含有单拷贝着陆垫的细胞中纯化gDNA。使用SYBR FAST qPCR Master Mix(Kapa Biosystems)，在CFXConnect Thermocycler上使用制造商的方案，使用退火到来自每个样品的外源DNA区域的引物扩增50ng gDNA。反应和循环条件如下进行优化：95℃达3分钟，95℃达3秒和60℃达20秒的40个循环。将转座的OR的Cq值相对于单拷贝着落垫标准化以测定拷贝数。

9.慢病毒转导

通过使用Mirus TransIT-293用慢病毒转移质粒pCMVΔR8.91和pCAGGS-VSV-G瞬时转染293T细胞来产生慢病毒载体。在50％汇合时转导HEK293T细胞以表达m2rtTA转录因子(Tet-On)，并在转导前一天接种。通过以0.5细胞/孔的密度将细胞接种在96孔板中来分离克隆。7天后检查孔的单一集落并扩充至24孔板。通过用瞬时萤光素酶测定法筛选MOR42-3(基因ID：257926)的稳健激活来评估克隆的m2rtTA表达。

10.高通量气味物筛选

将OR文库细胞系从液氮冷冻储液融化到T-225烧瓶(Corning)中三天，然后接种到96孔板中进行筛选。以每孔6,666个细胞在100ul DMEM中接种文库。24小时后，将DMEM中1ug/ml多西环素的工作浓度添加到孔。诱导后24小时，从每个板除去培养基，并用OptiMEM中稀释的25ul气味物替换。用相同量的最终DMSO(1％)一式三份以三种不同浓度(10uM、100uM、1mM)添加每种气味物。每个板含有一式三份的三种浓度(10uM、100uM、1mM)的两种对照气味物以及三个含有培养基中溶解的1％DMSO的孔。在除去盖的细胞培养箱中将文库与气味物一起温育3小时。

气味物温育后，将培养基移出板，并通过添加25uL冰冷的细胞至cDNA II裂解缓冲液(Thermo Fisher)，并且上下吸移以匀浆化和裂解细胞来裂解细胞。然后将裂解物加热至75℃达15分钟，并用液氮急速冷冻并保持于-80℃直至进一步加工。然后，将0.5uL DNA酶I(New England Biolabs)添加到裂解物，并在37℃温育15分钟。为了使RT引物退火，将来自每孔的5ul裂解物与2.5ul的10mM dNTP(New England Biosciences)、1ul的2uM基因特异性RT引物(OL003)和1.5ul的H2O组合。将反应加热至65℃达5分钟，然后冷却至0℃。退火后，对每个反应添加1ul M-MuLV逆转录酶(Enzymatics)、1ul缓冲液和0.25ul RNA酶抑制剂(Enzymatics)。将反应在42℃温育60分钟，并将RT酶在85℃热灭活10分钟。

对于每个批次，使用SYBR FAST qPCR Mastermix在几个孔(OL005F和OL013)上进行qPCR，以测定基于PCR的文库制备所必需的循环数。反应和循环条件如下进行优化：95℃达3分钟，95℃达3秒和60℃达20秒的40个循环。qPCR后，将5ul的每个RT反应与0.4ul的10uM含有测序衔接子的引物(OL005F和OL013)、10ul NEB-Next Q5 Master混合物(New EnglandBiosciences)和4.2ul H2O组合，并且根据制造商的方案进行PCR。正向引物含有P7衔接子序列和鉴定测定法中的孔的索引，并且反向引物含有P5衔接子序列和鉴定测定法中的板的索引。通过板将PCR产物合并在一起，并用DNA Clean and Concentrator试剂盒纯化。使用Tape Station 2200和Qubit(Thermo Fisher)对文库浓度进行定量。在NextSeq 500上以高输出模式(Illumina)用两个索引读段和单末端75-bp读段对文库进行测序。

11.下一代测序数据分析

样品经由通过对于每孔(5’端)独特的且对于每个板(3’端)独特的其PCR索引衔接子进行索引化来鉴定。孔条形码遵循(Illumina Sequencing Library Preparation forHighly Multiplexed Target Capture and Sequencing Matthias Meyer，MartinKircher，Cold Spring HarbProtoc；2010；doi：10.1101/pdb.prot5448)中的7bp索引化方案。板索引化方案遵循Illumina索引化方案。对测序数据进行解多路复用，并通过定制的python和bash脚本仅用精确匹配对15bp条形码序列进行计数。

12.用于调用命中的统计方法

然后，使用差异表达包EdgeR分析计数数据。为了滤除具有低呈现的OR，我们设定OR必须含有来自1954个测试样品的超过399个的读段的至少0.5％的截留。这滤出42种OR中在细胞文库中呈现不足的3种(MOR172-1、MOR176-1和MOR181-1)。使用EdgeR包函数calcNormFactors测定标准化因子，并以设置为tagwise分散的分散使用glmFit，因为文库中仅存在40种OR，并且趋势的分散值确实良好拟合数据。通过将广义线性模型拟合到计数数据来测定气味物是否刺激特定的OR，我们能够测定每种OR-气味物相互作用的平均激活和p值两者。然后，我们用Benjamini&Hochberg校正使用p.adjust函数中的构建校正多重假设检验的此p值，从而得出错误发现率(FDR)。我们设置1％的保守截留，以确定相互作用的气味物-OR对。对于气味物与OR之间的每种相互作用，我们进一步要求在两种不同浓度的气味物中或仅在1000uM浓度下，OR-气味物相互作用超出截留。

13.分子自动编码器

我们使用了如Gómez-Bombarelli等人所述的自动编码器以在化学空间的背景下显现OR化学相互作用。遵循作者的建议，我们使用自动编码器的重新实现，因为原始实现需要一个无效的Python包。除SMILES长于120个字符的分子外，该模型在整个ChEMBL 23数据库上预训练以0.99的验证准确性。我们使用此预训练的模型来产生我们的168种化学物质(对此，我们可以找到SMILES呈现)和250,000种从ChEMBL 23中随机取样的化学物质两者的潜在呈现。然后，我们使用scikit-learn进行主成分分析，以将所得矩阵投影到二维。

实施例3 -ADRB2变体筛选

突变体文库的创建和功能评估的概述。我们在寡核苷酸微阵列上合成突变体序列，然而每个寡聚物的长度限制是约230nt，并且ADRB2的长度是约1200nt。为了覆盖蛋白质的长度，我们必须将其分割成8个部分，合成每个突变体八分之一，然后克隆到分开的背景载体中。在扩增和克隆变体区段时，我们对每个序列附着一个15nt的随机条形码。克隆时，我们用下一代测序将每个条形码定位到每个变体。之后，我们克隆蛋白质的剩余部分，并将条形码转位到环状AMP应答元件(CRE)报告物基因的3’UTR，该基因在Gs信号传导时表达。从那里开始，我们使用丝氨酸重组酶技术以每个细胞单拷贝(对于防止多路复用测定法中突变体之间的串扰必需)在ΔADRB2 HEK293T细胞中定义的基因组基因座处整合文库。整合后，我们用各种异丙肾上腺素浓度刺激文库细胞系，并对条形码序列进行RNA测序。可以将每个条形码的相对丰度推断为用于呈现的标准化后每种B2变体的相对活性。这在图21中显示。

在图22中，我们显示了两个生物学重复间的移码(寡核苷酸微阵列合成的常见错误模式)和我们的单突变体文库两者的相对于中值野生型信号的分布活性。为了构建我们的变体分布，我们对与给定变体相关的每个条形码的测量值求平均值。为了构建移码分布，我们对与特定密码子(排除C端)处的插N/缺失相关的每个条形码的测量值求平均值。如预期，移码比平均错义突变具有更有害的效应。我们还看到，在高异丙肾上腺素浓度，较高比例的我们的错义突变接近野生型活性水平。

在图23中，我们显示了0.625μM异丙肾上腺素时β2的变体活性景象。突变景象揭示了β2结构和功能的总体趋势。例如，我们看到跨膜域对脯氨酸和带电残基取代比对末端或胞内环3(突变耐受性是所有突变的平均效应)更敏感。我们还看到移码的效应在C端中大大减少。我们看到突变数据与EV突变得分相关，并且我们还可以从GNOMAD数据中看到稀有变体如何影响功能。

在图24中，我们显示了与多路复用测序方法相比，用萤光素酶报告物个别测定的错义变体之间的比较。相对于WT的突变体活性通常得到重演。多路复用测定法可以在异丙肾上腺素刺激范围内区分完全死亡的突变体和部分有害的突变体。

我们查看β2的配体结合袋的突变耐受性(所有取代的平均值)，如从Ring等人的羟苄基异丙基肾上腺素与受体的接触图注释的。在我们的测定法中，我们仅用异丙肾上腺素刺激，并且我们看到与异丙肾上腺素相互作用的残基的突变相对于与羟苄基尾相互作用的残基而言对突变显著不太耐受。这在图25中显示。

我们还发现简单的算法(例如k均值聚簇)可以将我们的数据分组为不同的类，所述类以功能上相关的方式定位到β2的结构上。在此具体的实例中，我们将氨基酸突变一起分组为功能类别，并对其信号求平均值。重要的是，我们没有为算法提供任何空间信息。我们认为，未来的深度突变扫描可以是研究蛋白质结构的有力方法。这在图26中显示。

***

本文中公开和要求保护的所有方法可以根据本公开内容无需过度实验进行和执行。尽管已经根据优选实施方案描述了本发明的组合物和方法，但是对于本领域技术人员而言明显的是，可以在不背离本发明的构思、精神和范围的情况下对方法和本文中描述的方法的步骤或步骤的顺序应用变化。更具体地，明显的是，化学和生理学相关的某些试剂可以在实现相同或相似结果的情况下代替本文所述的试剂。认为对于本领域技术人员明显的所有此类类似的替代和修改在如所附权利要求书所限定的本发明的精神、范围和构思内。

参考文献

贯穿说明书提及的以下参考文献和出版物就它们提供与本文列出的那些互补的示例性程序或其它详情而言通过引用明确并入本文。

1.Roth，B.L.，Sheffler，D.J.&Kroeze，W.K.Magic shotguns versus magicbullets：selectively non-selective drugs for mood disorders andschizophrenia.Nat.Rev.Drug Discov.3，353-359(2004).

2.Reddy，A.S.&Zhang，S.Polypharmacology：drug discovery for thefuture.Expert Rev.Clin.Pharmacol.6，41-47(2013).

3.Fang，J.，Liu，C.，Wang，Q.，Lin，P.&Cheng，F.In silico polypharmacology ofnatural products.Brief.Bioinform.(2017).doi：10.1093/bib/bbx045

4.Anighoro，A.，Bajorath，J.&Rastelli，G.PolyPharmacology：challenges andopportunities in drug discovery.J.Med.Chem.57，7874-7887(2014).

5.Malnic，B.，Hirono，J.，Sato，T.&Buck，L.B.Combinatorial receptor codesfor odors.Cell 96，713-723(1999).

6.Bick，L.&Axel，R.A novel multigene family may encode odorantreceptors：a molecular basis for odor recognition.Cell 65，175-187(1991).

7.Hauser，A.S.，Attwood，M.M.，Rask-Andersen，M.，

H.B.&Gloriam，D.E.Trends in GPCR drug discovery：new agents，targets andindications.Nat.Rev.Drug Discov.16，829-842(2017).

8.Niimura，Y.，MatSui，A.&Touhara，K.Extreme expansion of the olfactoryreceptor gene repertoire in African elephants and evolutionary dynamics oforthologous gene groups in 13 placental mammals.Genome Res.24，1485-1496(2014).

9.Peterlin，Z.，Firestein，S.&Rogers，M.E.The state of the art of odorantreceptor deorphanization：a report from the orphanage.J.Gen.Physiol.143，527-542(2014).

10.Lu，M.，Echeverri，F.&Moyer，B.D.Endoplasmic reticulum retention，degradation，and aggregation of olfactory G-protein coupled receptors.Traffic4，416-433(2003).

11.Saito，H.，Chi，Q.，Zhuang，H.，Matsunami，H.&Mainland，J.D.Odor coding bya Mammalian receptor repertoire.Sci.Signal.2，ra9(2009).

12.Mainland，J.D.et al.The missense of smell：functional variability inthe human odorant receptor repertoire.Nat.Neurosci.17，114-120(2014).

13.Botvinik，A.&Rossner，M.J.Linking cellular signalling to geneexpression using EXT-encoded reporter libraries.Methods Mol.Biol.786，151-166(2012).

14.Galinski，S.，Wichert，S.P.，Rossner，M.J.&Wehr，M.C.Multiplexedprofiling of GPCR activities by combining split TEV assays and EXT-basedbarcoded readouts.Sci.Rep.8，8137(2018).

15.Zhuang，H.&Matsunami，H.Synergism of accessory factors in functionalexpression of mammalian odorant receptors.J.Biol.Chem.282，15284-15293(2007).

16.Shepard，B.D.，Natarajan，N.，Protzko，R.J.，Acres，O.W.&Pluznick，J.L.Acleavable N-terminal signal peptide promotes widespread olfactory receptorsurface expression in HEK293T cells.PLoS One 8，e68758(2013).

17.Saito，H.，Kubota，M.，Roberts，R.W.，Chi，Q.&Matsunami，H.RTP familymembers induce functional expression of mammalian odorant receptors.Cell 119，679-691(2004).

18.Li，X.et al.piggyBac transposase tools for genome engineering.Proc.Natl.Acad.Sci.U.S.A.110，E2279-87(2013).

19.McCarthy，D.J.，Chen，Y.&Smyth，G.K.Differential expression analysisof multifactor RNA-Seq experiments with respect to biologicalvariation.Nucleic Acids Res.40，4288-4297(2012).

20.Zhuang，H.&Matsunami，H.Evaluating cell-surface expression andmeasuring activation of mammalian odorant receptors in heterologouscells.Nat.Protoc.3，1402-1413(2008).

21.Gómez-Bombarelli，R.et al.Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules.ACS Cent Sci 4，268-276(2018).

22.Antebi，Y.E.et al.Combinatorial Signal Perception in the BMPPathway.Cell 170，1184-1196.e24(2017).

Claims

1.一种核酸，其包含：

i)异源受体基因；

ii)包含受体应答元件的诱导型报告物；其中所述报告物的表达依赖于由所述受体基因编码的受体的活性的激活，并且其中所述报告物包含条形码，所述条形码包含对于所述异源受体基因独特的索引区。

2.一种包含权利要求1的核酸的载体。

3.一种包含异源受体基因的载体。

4.权利要求3的载体，其中所述载体还包含诱导型报告物；其中所述报告物的表达依赖于由所述受体基因编码的受体的活性的激活，并且其中所述报告物包含条形码，所述条形码包含对于所述异源受体基因独特的索引区。

5.一种包含诱导型报告物的载体，其中所述报告物包含条形码。

6.权利要求2-4中任一项的载体，其中所述受体基因编码G蛋白偶联受体(GPCR)。

7.权利要求2-6中任一项的载体，其中所述受体基因还包含一种或多种另外的编码辅助多肽的多核苷酸。

8.权利要求7的载体，其中所述辅助多肽包含可选择或可筛选蛋白。

9.权利要求7或8的载体，其中所述辅助多肽包含蛋白质标签。

10.权利要求7-8中任一项的载体，其中所述辅助多肽包含转录因子。

11.权利要求10的载体，其中所述受体基因编码包含所述受体基因和所述辅助多肽的融合蛋白。

12.权利要求11的载体，其中所述融合蛋白在所述受体基因和所述辅助多肽之间包含蛋白酶位点。

13.权利要求2-12中任一项的载体，其中所述辅助多肽包含一个或多个运输标签。

14.权利要求13的载体，其中所述辅助多肽包含两个运输标签。

15.权利要求13或14的载体，其中所述运输标签包含Lucy和/或Rho标签。

16.权利要求2-15中任一项的载体，其中所述报告物由GPCR激活时的信号转导诱导。

17.权利要求2-16中任一项的载体，其中所述受体应答元件包含以下中的一种或多种：cAMP应答元件(CRE)、活化T细胞核因子应答元件(NFAT-RE)、血清应答元件(SRE)和血清响应因子应答元件(SRF-RE)。

18.权利要求17的载体，其中所述受体应答元件包含CRE。

19.权利要求18的载体，其中所述CRE包含SEQ ID NO：1的至少5个重复。

20.权利要求10-19中任一项的载体，其中所述受体应答元件包含由所述辅助多肽转录因子结合的DNA元件。

21.权利要求20的载体，其中所述辅助多肽转录因子包含反向四环素控制的转录激活物(rtTA)，并且所述受体应答元件包含四环素应答元件(TRE)。

22.权利要求6-21中任一项的载体，其中所述GPCR是嗅觉受体(OR)。

23.权利要求2-22中任一项的载体，其中所述受体包含肾上腺素受体。

24.权利要求23的载体，其中所述肾上腺素受体包括β-2肾上腺素能受体。

25.权利要求2-22中任一项的载体，其中所述受体基因包括核激素受体基因。

26.权利要求2-22中任一项的载体，其中所述受体基因包括受体酪氨酸激酶基因。

27.权利要求2-26中任一项的载体，其中所述受体是跨膜受体。

28.权利要求2-26中任一项的载体，其中所述受体是胞内受体。

29.权利要求2-28中任一项的载体，其中所述载体包括病毒载体。

30.权利要求29的载体，其中所述载体包括慢病毒载体。

31.权利要求2-29中任一项的载体，其中所述受体基因包含组成性启动子。

32.权利要求2-29中任一项的载体，其中所述受体基因包含条件启动子。

32.1权利要求2-32中任一项的载体，其中所述异源受体基因与条件启动子可操作偶联。

32.2权利要求32.1的载体，其中所述条件启动子是四环素应答元件。

33.权利要求2-32中任一项的载体，其中所述条形码是至少10个核酸。

34.权利要求2-32中任一项的载体，其中所述报告物包含或进一步包含开放阅读框(ORF)；其中所述基因包含3’非翻译区(UTR)。

35.权利要求34的载体，其中所述条形码位于荧光蛋白的基因的3’UTR中。

36.权利要求34或35的载体，其中所述ORF编码可选择或可筛选蛋白。

37.权利要求36的载体，其中所述ORF编码萤光素酶蛋白。

38.权利要求2-37中任一项的载体，其中所述受体基因在5’和/或3’末端的侧翼有绝缘子序列。

39.权利要求2-37中任一项的载体，其中所述报告物在5’和/或3’末端的侧翼有绝缘子序列。

40.权利要求38或39的载体，其中所述绝缘子包括cHS4绝缘子。

41.权利要求2-40中任一项的载体，其中所述载体包含第二、第三或第四条形码。

42.权利要求41的载体，其中所述第二、第三或第四条形码中的至少一个包含对于以下一项或多项独特的索引区：测定条件或微板上的位置。

43.一种病毒颗粒，其包含权利要求2-40中任一项的载体。

44.一种细胞，其包含权利要求3-39中任一项的载体或权利要求43的病毒颗粒。

44.1一种细胞，其包含权利要求2-42中任一项的载体的多个拷贝。

44.2权利要求44.1的细胞，其中所述细胞包含所述载体的至少三个拷贝。

45.细胞群体，其中每个细胞包含：

i)异源受体基因；和

ii)包含受体应答元件的诱导型报告物；其中所述报告物的表达依赖于由所述受体基因编码的受体的活性的激活，并且其中所述报告物包括条形码，所述条形码包含对于所述异源受体基因独特的索引区；

并且其中所述细胞表达不同的异源受体，并且其中每个单一细胞具有一种特定异源受体的一个或多个拷贝和一种特定报告物的一个或多个拷贝。

46.一种细胞，其包含：

i)异源受体基因；和

47.权利要求44.2-46中任一项的一种或多种细胞，其中所述受体基因编码GPCR。

48.权利要求47的一种或多种细胞，其中所述报告物由GPCR激活时的信号转导诱导。

49.权利要求44.2-48中任一项的一种或多种细胞，其中所述受体基因还包含一种或多种另外的编码辅助多肽的多核苷酸。

50.权利要求49的一种或多种细胞，其中所述辅助多肽包含可选择或可筛选蛋白。

51.权利要求49或50的一种或多种细胞，其中所述辅助多肽包含蛋白质标签。

52.权利要求49-51中任一项的一种或多种细胞，其中所述辅助多肽包含转录因子。

53.权利要求49-52中任一项的一种或多种细胞，其中所述受体基因编码包含所述受体基因和所述辅助多肽的融合蛋白。

54.权利要求53的一种或多种细胞，其中所述融合蛋白在所述受体基因和所述辅助多肽之间包含蛋白酶位点。

55.权利要求47-54中任一项的一种或多种细胞，其中所述诱导型报告物包含以下中的一种或多种：cAMP应答元件(CRE)、活化T细胞核因子应答元件(NFAT-RE)、血清应答元件(SRE)和血清响应因子应答元件(SRF-RE)。

56.权利要求47-55中任一项的一种或多种细胞，其中所述GPCR是嗅觉受体(OR)。

57.权利要求44-56中任一项的一种或多种细胞，其中所述细胞还包含一种或多种编码一种或多种辅助蛋白的基因。

58.权利要求57的一种或多种细胞，其中所述一种或多种辅助蛋白包含Gα亚基、Ric-8B、RTP1L、RTP2、RTP3、RTP4、CHMR3和RTP1S中的一种或多种。

58.1权利要求44.2-58中任一项的一种或多种细胞，其中所述细胞包含编码一种或多种辅助因子基因的一种或多种外源核苷酸的稳定整合，其中所述辅助因子基因包含RTP1S、RTP2、Gα-亚基和Ric-8b。

59.权利要求57的一种或多种细胞，其中所述一种或多种辅助蛋白包括抑制蛋白(arrestin protein)。

60.权利要求59的一种或多种细胞，其中所述抑制蛋白与蛋白酶融合。

61.权利要求44.2-60中任一项的一种或多种细胞，其中所述受体基因包括核激素受体基因。

62.权利要求44.2-61中任一项的一种或多种细胞，其中所述受体基因包括受体酪氨酸激酶基因。

63.权利要求44.2-62中任一项的一种或多种细胞，其中所述受体是跨膜受体。

64.权利要求57-63中任一项的一种或多种细胞，其中所述一种或多种辅助蛋白包括伴侣蛋白、G蛋白和鸟嘌呤核苷酸交换因子中的一种或多种。

65.权利要求44.2-64中任一项的一种或多种细胞，其中所述细胞还包含从所述异源受体基因表达的受体蛋白。

66.权利要求65的一种或多种细胞，其中所述受体蛋白在胞内定位。

67.权利要求44.2-66中任一项的一种或多种细胞，其中所述细胞缺乏内源基因，所述内源基因编码与所述异源受体基因至少80％相同的蛋白质。

68.权利要求44.2-67中任一项的一种或多种细胞，其中所述受体基因整合到所述细胞的基因组中。

69.权利要求44.2-68中任一项的一种或多种细胞，其中所述诱导型报告物整合到所述细胞的基因组中。

70.权利要求68或69的一种或多种细胞，其中所述受体基因和诱导型报告物是遗传上连接的。

71.权利要求68或69的一种或多种细胞，其中所述受体基因和诱导型报告物是遗传上未连接的。

72.权利要求68-71中任一项的一种或多种细胞，其中所述整合的受体基因和/或诱导型报告物通过靶向整合来整合。

73.权利要求72的一种或多种细胞，其中所述整合对H11安全港基因座进行。

74.权利要求68-71中任一项的一种或多种细胞，其中所述整合的受体基因和/或诱导型报告物随机整合到所述基因组中。

75.权利要求74的一种或多种细胞，其中所述随机整合包括所述受体基因和/或诱导型报告物的转座。

76.权利要求44.2-75中任一项的一种或多种细胞，其中所述细胞包含所述受体基因和/或诱导型报告物的至少2个拷贝。

77.权利要求44.2-76中任一项的一种或多种细胞，其中所述受体基因包含组成性启动子。

78.权利要求65-77中任一项的一种或多种细胞，其中所述受体的表达是组成性的。

79.权利要求44.2-76中任一项的一种或多种细胞，其中所述受体基因包含条件启动子。

80.权利要求65-76或79中任一项的一种或多种细胞，其中所述受体的表达是条件性的。

81.权利要求44.2-80中任一项的一种或多种细胞，其中所述条形码和/或索引区是至少10个核酸。

82.权利要求44.2-81中任一项的一种或多种细胞，其中所述报告物包含或还包含荧光蛋白的基因；其中所述基因包含3’非翻译区(UTR)。

83.权利要求82的一种或多种细胞，其中所述条形码位于所述荧光蛋白的基因的3’UTR中。

84.权利要求82或83的一种或多种细胞，其中所述基因编码萤光素酶蛋白。

85.权利要求68-84中任一项的一种或多种细胞，其中所述受体基因在5’和3’末端的侧翼有绝缘子序列。

86.权利要求68-85中任一项的一种或多种细胞，其中所述报告物在5’和3’端的侧翼有绝缘子序列。

87.权利要求44.2-86中任一项的一种或多种细胞，其中所述异源受体的表达水平处于生理学相关的表达水平。

88.权利要求44.2-87中任一项的一种或多种细胞，其中所述一种或多种细胞是冷冻的。

89.权利要求44.2-88中任一项的一种或多种细胞，其中所述细胞是哺乳动物细胞。

90.权利要求90的一种或多种细胞，其中所述细胞是人胚胎肾293T(HEK293T)细胞。

91.一种测定系统，其包含权利要求44-90中任一项的细胞。

92.一种用于筛选配体和受体结合的方法，其包括：

使权利要求44-90中任一项的一种或多种细胞与配体接触；

检测一种或多种报告物；并且

测定所述一种或多种报告物的身份；其中所述报告物的身份指示结合的受体的身份。

93.权利要求92的方法，其中测定所述报告物的身份包括从所述细胞分离核酸。

94.权利要求93的方法，其中所述核酸包含RNA。

95.权利要求94的方法，其中所述方法还包括对分离的RNA进行逆转录酶反应以制备cDNA。

96.权利要求95的方法，其中在裂解物中进行RT。

97.权利要求93-96中任一项的方法，其中所述方法还包括扩增所述分离的核酸。

98.权利要求93-97中任一项的方法，其中所述方法还包括对分离的核酸进行测序。

99.权利要求92-98中任一项的方法，其中检测一种或多种报告物包括检测来自所述一种或多种细胞的荧光水平。

100.权利要求92-99中任一项的方法，其中在所述多种细胞中表达至少2种不同的异源受体。

101.权利要求92-100中任一项的方法，其中在一种组合物中共混合所述细胞群体。

102.权利要求92-101中任一项的方法，其中将所述细胞群体粘附至基底。

103.权利要求92-102中任一项的方法，其中在基底的一个孔内或一个细胞培养皿内含有所述细胞群体。

104.权利要求92-103中任一项的方法，其中所述方法还包括分配所述细胞。

105.权利要求104的方法，其中将所述细胞分配到96孔细胞培养板上。

106.权利要求92-105中任一项的方法，其中将所述一种或多种细胞冷冻，并且所述方法还包括融化冷冻的细胞。

107.一种用于筛选配体和受体结合的方法，其包括：使细胞群体与配体接触；其中所述细胞群体的每个细胞包含：

i)异源受体基因；和

ii)包含受体应答元件的诱导型报告物；其中所述报告物的表达依赖于由所述受体基因编码的受体的活性的激活，并且其中所述报告物包含条形码，所述条形码包含对于所述异源受体基因独特的索引区；

并且其中所述细胞群体从所述异源受体基因表达至少300种不同的受体，并且其中每个单一细胞具有一种特定异源受体的一个或多个拷贝和一种特定报告物的一个或多个拷贝；

检测一种或多种报告物；并且

108.一种载体文库，其包含至少两种不同的载体，其中所述载体包含不同的异源受体基因和不同的诱导型报告物。

109.一种细胞文库，其包含权利要求45-90中任一项的细胞群体。

110.一种病毒文库，其包含至少两种根据权利要求43的病毒颗粒，其中所述病毒颗粒包含不同的异源受体基因和不同的诱导型报告物。

111.一种用于制备包含受体蛋白的细胞文库的方法，所述方法包括：

i)在细胞中表达权利要求1的核酸或权利要求2-39中任一项的载体；或

ii)用权利要求43的病毒感染细胞；

其中所述细胞表达不同的异源受体，并且其中每个单一细胞表达一种特定异源受体的一个或多个拷贝和一种特定报告物的一个或多个拷贝。

112.一种试剂盒，其包含权利要求108-110中任一项的文库。

113.一种核酸，其包含：

i)与诱导型启动子可操作偶联的异源受体基因；和

ii)包括受体应答元件的报告物；其中所述报告物的表达依赖于由所述异源受体基因编码的所述受体的活性的激活，并且其中所述报告物包含条形码，所述条形码包含对于所述异源受体基因独特的索引区。

114.一种细胞，其包含权利要求113的核酸的至少2个拷贝至至少6个拷贝。