CN113166767A - 用于工程合成顺式调控dna的方法 - Google Patents

用于工程合成顺式调控dna的方法 Download PDF

Info

Publication number
CN113166767A
CN113166767A CN201980072060.5A CN201980072060A CN113166767A CN 113166767 A CN113166767 A CN 113166767A CN 201980072060 A CN201980072060 A CN 201980072060A CN 113166767 A CN113166767 A CN 113166767A
Authority
CN
China
Prior art keywords
gene
cell
genomic
expression
mgt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980072060.5A
Other languages
English (en)
Inventor
加埃塔诺·加尔朱洛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Max Delbrueck Centrum fuer Molekulare in der Helmholtz Gemeinschaft
Original Assignee
Max Delbrueck Centrum fuer Molekulare in der Helmholtz Gemeinschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Max Delbrueck Centrum fuer Molekulare in der Helmholtz Gemeinschaft filed Critical Max Delbrueck Centrum fuer Molekulare in der Helmholtz Gemeinschaft
Publication of CN113166767A publication Critical patent/CN113166767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/64General methods for preparing the vector, for introducing it into the cell or for selecting the vector-containing host
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6897Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids involving reporter genes operably linked to promoters
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Plant Pathology (AREA)
  • Cell Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)

Abstract

本发明涉及用于生成细胞类型特异性表达盒和报道载体的方法,以及可以通过这样的方法生成的核酸构建体。细胞类型特异性表达盒和报道载体的特征在于合成顺式调控DNA,也称为合成基因座区(sLCR)。sLCR允许报道基因或效应基因的细胞类型特异性表达。本发明进一步涉及报道载体的各种用途,包括在基因和病毒治疗、药物发现或验证中确定细胞的特性,优选细胞类型、状态或命运转变。

Description

用于工程合成顺式调控DNA的方法
技术领域
本发明涉及用于生成细胞类型特异性表达盒和报道载体的方法,以及可以通过这样的方法生成的核酸构建体。细胞类型特异性表达盒和报道载体的特征在于合成顺式调控DNA,也称为合成基因座区(sLCR)。sLCR允许报道基因或效应基因的细胞类型特异性表达。本发明进一步涉及报道载体的各种用途,包括在基因和病毒治疗、药物发现或验证中确定细胞的特性,优选细胞类型、状态或命运转变(fate transition)。
背景技术
表达盒和报道载体在基础研究、药物筛选诊断或基因治疗中具有广泛的应用。
选择性鉴定细胞类型特异性的标识对于理解在其中多样化的细胞类型有助于组织内稳态的生物学过程至关重要。理想地,这种方法在涉及包括代谢、免疫、神经或精神疾患以及炎症和癌症的组织内稳态的改变的疾病环境中也将是有益的。在开发环境中,这传统上是使用谱系追踪1实现的。
在最众所周知的实例中,Fbx15表达的谱系追踪导致发现了能够将成纤维细胞重编程为多能细胞的定义的因子49,以及Lgr5表达的谱系追踪使得能够鉴定真正的微结肠和小肠干细胞2,其后来被证明可以标记许多其他成体组织干细胞3。庞杂的报道子策略的平行开发允许在分析多个谱系中的单细胞分辨。
传统上,已经利用了多种遗传追踪方法来生成用于细胞类型特异性遗传操纵和细胞标记的报道小鼠(例如LacZ、mGmT、Brainbow和Confetti体系、双标记嵌合分析-MADM等)。这些策略可以揭示复杂的神经元连接模式4,并解决悬而未决的问题,诸如活生物体中肿瘤的起源细胞5。最近,光遗传技术和基于CRISRP/Cas9的策略在获得更多定量读出中增加了进一步的灵活性。
基于成体干细胞生物学的报道子策略的使用可以同时告知组织的起源及其异常的内稳态6 7 8。反映出特征明确的通路的遗传报道子可以导致对复杂的信号传导二分法的更深入的了解,诸如在毛囊内稳态期间转化生长因子抵消骨形态发生蛋白质(BMP)信号传导9
在癌症中,这种方法严格地揭示了异常的内稳态可能是治疗抗性的原因10,或者再生潜力和肿瘤易感性可能在某些器官之间共享,而在其他器官中则明显不同11。可以通过基于转录因子结合位点设计合成报道子来揭示定量时空模式动力学47。如从这些和许多其他研究中推断的,遗传报道子的选择是最终解决庞杂和复杂生物学问题的关键因素。这在受多种因素和复杂相互作用支配的发育或疾病环境中尤其有效12。在这些环境中,灵活设计在单个基因盒中拦截多个通路的合成报道子的能力无疑将证明是一项重要资产,然而目前的方法仍然受到限制。
例如,目前采用的用于遗传追踪载体的方法依赖于使用与报道基因或功能效应子偶联的细胞类型、通路特异性或合成启动子或增强子。
细胞类型特异性启动子的使用基于将报道基因或功能效应子置于目的细胞类型的标签基因(signature gene)的最小启动子之后。因此,它允许作为给定基因的启动子介导的给定报道子或效应子的特异性转录激活。细胞类型特异性载体提供了使用一个给定基因作为细胞状态或发育阶段的代表(proxy)的可能性。
一个实例是使用Nestin启动子以便标记神经祖细胞。这种方法被广泛使用,并且允许研究人员指导未分化细胞中特异性报道子或效应子的激活。
这些方法的显著限制是必须有标签基因的先验知识,并且假定所述基因的调控元件是已知的并且紧邻转录起始位点。此外,这些方法受限于用以描述复杂调控系统的单个基因的特异性不足。对于该问题的繁琐解决方案需要对任何给定的目的细胞类型的所有特异性增强子进行细胞类型特异性鉴定,随后选择这样的元件之一并且将其克隆至最小病毒启动子上游。然而,这种方法在技术上要求很高,并且确实依赖于监督选择48。这两个限制确实将这种方法的应用局限于在非常受选择的环境。
替代方法使用通路特异性启动子,以便将报道子或效应子置于特异于给定通路的人工组装的转录因子结合位点之后。因此,可以通过已知对于所述通路必不可少的调控元件的介导来控制特异性转录激活。
一个实例是特异于SMAD1/5/8的核活性的BMP应答元件(BRE),它描述了BMP通路的激活。虽然BMP应答元件(BRE)可靠地描述了经典通路激活,但它忽略了非经典激活,并且提供了对反馈回路不够敏感的报道系统。
使用通路特异性启动子的限制包括需要依赖于假设所使用的调控元件的最小集足以告知通路激活。此外,这样的调控元件和其广泛的特征以及与其自然环境的隔离的先验知识是必要的,并且妨碍了它们对于复杂和不太具特征的细胞类型的应用。
作为进一步的方法,已经提出了合成增强子或启动子,通过将目的报道子置于多个人工组装的转录因子结合位点之后最小启动子之前。然而,这些方法也依赖于已知与细胞类型或发育阶段相关的转录因子结合位点的先验知识。
所有方法都受限于它们对先验知识的依赖或者对特异于目的细胞类型或阶段的调控元件的准确发现和验证。此外,由于在许多情况下并未覆盖所有调控元件,因此不得不使用多种标志物以便确保可靠的细胞类型表征,从而使报道子的构建和任何实验结果的评估变得复杂。
经由流式细胞术的基于细胞特异性表面分子的表达的细胞表征也已经在本领域中描述。这是一种常见的做法,但在某种意义上是受限的,因为相应的标志物必须事先知道,并且并非所有细胞类型都具有特征性的表面蛋白。此外,使用这样的方法不可能在体内追踪细胞类型或非常具有挑战性。
为了尝试采用多个转录因子结合位点以调控报道基因的表达,已经开发了替代的基因表达报道载体。
WO2001/49868 A1(韩国生命科学与生物技术研究院)公开了癌症特异性基因表达载体,其包括具有在癌基因中表达的E2F转录因子的结合位点(EF2bs)以及其他转录因子的额外的结合位点(例如SP1、AP1、NF1或C/EFB)的启动子。然而,该方法仍然依赖于先前鉴定为与特定类型的癌症相关的TF结合位点(例如,EF2bs)的先验知识。
WO 2015/110449 A1(布鲁塞尔大学/根特大学)公开了用于鉴定具有转录因子结合位点(TFBS)的富集的心脏和骨骼肌特异性调控元件的计算方法,其中,公开了300-500bp的长度的不同的调控区(CSk-SH1-6;Sk-SH1),每个包含多个(3-10)保守的TFBS。然而,该技术专注于采用进化的保守的TFBS,从而依赖于调控序列的基因组保守性,以便增强在肌肉中的表达。
WO 2008/107725 A1公开了用于鉴定在目的细胞中有活性的转录因子调控元件(TFRE)的计算方法,其中,TFRE具有至少6至100bp的长度,其中,6个或更多个TFRE可以组合在表达载体的启动子元件中。然而,该技术采用相同的预选最小启动子的融合,在任何给定条件下鉴定出额外的TFRE,即具有已知功能的顺式元件的监督合并。
Guo等人(Trends in Mol.Medicine,14:410-418)回顾了几种病毒载体以及转录调控元件。Gargiulo等人(Mechanisms of Development,35:193-203)公开了对果蝇(Drospholia)的卵泡上皮中的卵黄膜蛋白基因32(VMPE)的细胞特异性表达的顺式作用元件的鉴定,其中,表达载体包括调控基因组区的不同片段。
尽管在该领域中取得了这些进步,但这样的替代方法依赖于对生成报道载体不利的策略,诸如依赖于相关启动子的先验知识,专注于TFBS的遗传/进化保守性,或者使用由具有已知功能的顺式元件修饰的单一启动子。
因此,在合成报道子领域中需要基于无偏倚从头方法的替代或改进的方法和构建体,用于解码和重建用于任何给定细胞类型或状态的调控信息。
发明内容
鉴于现有技术,本发明基于的技术问题是提供替代和/或改进的方法,用于生成基于合成顺式调控DNA的遗传追踪盒或载体,其允许报道基因或功能效应子的细胞类型或发育阶段特异性表达。
该问题通过独立权利要求的特征解决。本发明的优选实施方式由从属权利要求提供。
因此,本发明涉及用于生成细胞类型特异性表达盒的方法,所述方法包括以下步骤:
a)提供目的细胞类型的基因表达谱,
b)提供所述目的细胞类型的基因组序列数据,
c)从所述基因表达谱中选择标签基因的集合,所述标签基因(i)与参考细胞类型相比受到差异调控,或(ii)根据基因表达水平选择,
d)在c)中选择的所述标签基因的集合中鉴定编码转录因子的基因,
e)从所述基因组序列数据中确定基因组区的集合,其中,每个基因组区包括编码在c)中鉴定的标签基因的序列和与编码所述标签基因的序列相邻并且位于编码所述标签基因的序列的侧翼的额外的基因组序列,
f)鉴定在e)中确定的所述基因组区的集合内的具有相当和有限大小,优选相等大小的多个基因组亚区,其中,所述基因组亚区包括在d)中鉴定的一个或多个转录因子的一个或多个结合位点,
g)从f)中确定的基因组亚区中选择基因组亚区的最小集合,优选2至10个之间,其中,选择所述基因组亚区的集合以包括在d)中鉴定的所有转录因子的预定百分比的转录因子结合位点,以及
h)生成包括与报道基因或效应基因可操作地偶联的在步骤g)中选择的所述基因组亚区的集合的细胞类型特异性表达盒,其中,将所述基因组亚区配置为调控所述报道基因或效应基因的表达。
所述方法允许生成表达盒,当将所述表达盒引入目的细胞中时,会以对特定实体或状态诸如细胞类型或状态高度特异性的方式产生报道基因或效应基因的表达,其中,报道子已被设计为描述在所述目的实体或状态中基因表达的调控而不需要先验知识。
与现有技术相反,本发明的方法和构建体基于用于解码和重建任何给定细胞类型/状态的调控信息的无偏倚从头方法。本发明代表了基本上基于在细胞类型/状态特异性标签基因上的细胞类型/状态特异性TFBS的聚类的完全新颖的方法。本发明的特征还在于对于任何给定的细胞类型/状态的相关TFBS采用定量和/或统计富集的优点。
在一些实施方式中,所述方法基本上采用系统生物学方法,通过从目的细胞类型的给定转录标签中鉴定内源性发生的顺式调控元件的集合,并将这些顺式调控元件置于报道基因或效应基因之前,来生成表达盒。此方法独立于目的细胞类型的特定特征的预想信息,从而允许标准化、无偏倚和直接地产生针对任何给定细胞类型的报道构建体。
为此,所述方法鉴定了包括细胞类型特征性的转录因子结合位点的基因组亚区,并将它们组装到包括目的细胞类型内的转录调控序列信息的相关部分的基因组亚区的集合中。所述基因组亚区的集合也可以被称为“合成顺式调控DNA”、“合成调控区”或“合成基因座控制区(sLCR)”。
当引入细胞中时,所述报道基因或效应基因的表达将会发生,因为在所述细胞类型中,存在与特征性转录因子结合位点相对应的转录因子,并启动所述报道基因或效应基因的表达。因此表达水平与特定细胞类型有关。每种细胞类型将根据标签基因集合本质上产生不同的基因集合,并且每种细胞类型将根据存在的转录因子和sLCR中组装的调控区的组合示出不同的报道子表达水平。
有利地,所述方法不限于某些细胞类型,而是可以实际上应用于任何细胞类型,并且甚至区分某个细胞类型内的细胞状态或命运转变。为此,不需要目的细胞类型中基因调控的先验知识。
相反,所述方法仅依赖于给定细胞类型的基因表达谱和基因组序列数据的提供,这可以使用标准生物分子技术或访问公共数据库获得。
基因表达谱反映了目的细胞类型内的基因表达的水平。为此,例如,可以使用RNA-SEQ或其他测序或基于微阵列的技术来定量目的细胞类型中RNA转录物的水平。然而,也可以使用蛋白质组学可能地推导出基因表达谱,例如通过量化存在于目的细胞类型中的表达的蛋白质或肽,可以将其平方到基因表达谱。
从基因表达谱中,选择目的细胞类型、细胞状态或实体特征性的标签基因。标签基因的选择可以适应于期望的应用。
例如,可以根据标签基因的基因表达水平来选择标签基因,通过将目的细胞类型的基因根据其基因表达水平进行排序,并选择高于或低于某个阈值的基因,或者选择预定数量的最高或最低表达的基因。对于这样的标签基因的选择,将目的细胞类型的基因的绝对表达水平用作参考。因此得到的表达盒可以独立于待探测的细胞而忠实地报道在各种测定中的目的细胞类型的存在。
然而,对于某些应用,可能期望生成一种表达盒,其以特定的高特异性将目的细胞类型与参考细胞或参考细胞状态相区分。对于这样的应用,通过鉴定与参考细胞类型中的表达水平相比上调或下调的基因来选择差异调控的标签基因。在这些实施方式中,提供目的细胞类型和参考细胞类型的基因表达谱。通过选择差异调控的基因,可以将表达盒微调用于需要将目的细胞类型(或状态或命运)与某一参考类型(或状态或命运)相区分的测定。
从选择的标签基因中,鉴定出标签基因的集合中的编码转录因子的所有基因。为此,所述方法可依赖于公开可访问的带注释的数据库,诸如ENCODE、mENCODE(ENCODE项目的鼠标版本)、JASPAR、Ensemble、Entrez Gene、Genebank等。因此,鉴定了特征性表达的目的细胞类型的转录因子的集合。转录因子可由技术人员通过常用数据库中的功能的注释来鉴定。此外,每个转录因子的靶序列,即转录因子结合位点通常是技术人员已知的和/或使用适当注释的数据库诸如上述那些可获得的。优选地,在一些实施方式中,所述方法涉及转录因子的使用,这些转录因子的结合位点(以DNA序列或序列基序的形式)是已知的和/或优选地在公共数据库中注释的。
此外,使用选择的基因的集合以确定来自目的细胞类型的基因组序列数据的基因组区的集合,其中,每个基因组区包括编码标签基因的序列和与编码所述标签基因的序列相邻(优选位于编码所述标签基因的序列的紧邻的侧翼)的额外的基因组序列。此基因组序列例如非编码参考DNA(尽管顺式调控元件可能存在于编码区中)旨在涵盖调控序列,该序列可位于编码区的上游、下游或内部,更通常紧邻转录起始位点但不仅限于此。与标签基因相邻的额外的基因组序列的大小可以变化,因为所述方法有利地对额外的基因组序列的附加部分的存在不过度敏感。
因此,额外的基因组序列应足够大以涵盖调控标签基因的表达的顺式调控元件(尤其是转录因子结合位点,或增强子或沉默子)。众所周知,这样的顺式调控元件在结构上可以与编码区非常接近,但是——考虑到基因组在核仁中的3D结构分布——就线性基因组序列而言,顺式调控元件可以位于相当远的距离。在优选的实施方式中,通过使用拓扑相关结构域作为边界,基于细胞类型中染色质内DNA的折叠的三维状态,选择调控基因组序列。优选地,在一些实施方式中,所述方法假定细胞类型特异性的非编码CTCF结合位点作为拓扑相关结构域的代表。CTCF结合位点(以DNA序列或序列基序的形式)通常是技术人员已知的和/或通常在公共数据库中注释的。
在优选的实施方式中,在确定了基因组区的集合之后,所述方法搜索相似或相当大小(例如相等大小)的多个基因组亚区,所述基因组亚区包括由标签基因编码的转录因子的一个或多个,优选数个结合位点。因此,在所述方法的步骤f)中鉴定的所有基因组亚区均包括在目的细胞类型中特征性表达的转录因子的DNA结合位点。当将所述基因组亚区组装在sLCR中并且将所述sLCR引入目的细胞中时,特征性表达的标签转录因子可以与所述sLCR结合并且调控下游报道基因或效应基因的表达。通常,鉴定出的许多基因组亚区比组成sLCR的基因组亚区更大,这些基因组亚区就特征性转录因子的结合位点而言是冗余的。有限数量的所有已鉴定的基因组亚区的组装足以代表整个调控复杂性,并且包括所有元件不会导致特异性增加,而是产生不必要的大表达盒。
因此,所述方法进一步涵盖以下步骤,选择包括由选择的标签基因编码的所有转录因子的预定百分比的转录因子结合位点的基因组亚区的最小集合。
举例来说,可以假设在标签基因的集合内可以鉴定100个转录因子,其中100个转录因子结合位点是已知的。然而,在一些实施方式中,由选择的标签基因编码的转录因子的数量不一定等于转录因子结合位点的数量。在一些选定的实施方式中,不是所有的转录因子都可以具有已知的结合位点,或者多个转录因子结合位点矩阵可以与一些转录因子相关。
为了在sLCR的组装中使用尽可能少的基因组亚区的数量,例如为了保持所得调控序列的紧凑,则所述方法优选地除了根据转录因子结合位点的多样性之外,还根据转录因子结合位点的数量将基因组亚区进行排序。例如,排序最高的基因组亚区可包含用于步骤d)的转录因子的35个转录因子结合位点,其中这些结合位点中的3个在同一基因组亚区中重复出现5次,而其余结合位点仅出现一次。那么此排序最高的基因组亚区将包括23个不同的(独特的)转录因子结合位点,其代表标签基因的23个转录因子的结合位点。因此,此排序最高的基因组亚区将覆盖23%的步骤d)的特征性转录因子。
如果例如将预定百分比设置为50%,则将搜索优选涵盖尚未包含在第一基因组亚区的23个结合位点中的转录因子结合位点的第二(并且潜在地第三)基因组亚区,等等,使得进一步的一个或多个基因组亚区将包括尚未被第一排序最高的基因组亚区所覆盖的转录因子的至少7个结合位点。通常,2-10个基因组亚区的最小集合将包括是由标签基因编码的转录因子的至少50%的结合靶标的转录因子结合位点。
当将表达盒引入目的细胞类型中时,基因组亚区的最小集合充当特征性转录因子可以结合的合成顺式调控DNA。因此,在本文的所述方法的步骤g)中选择的基因组亚区的最小集合因此称为合成基因座控制区(sLCR)。在一些实施方式中,所述盒因此包括富集了被转录因子(所述转录因子例如在目的细胞类型中表达或高度表达)结合的调控序列的调控区(sLCR)。因此,此调控区是对于该特定细胞类型特有的/定制的,并且导致该细胞类型特有的报道基因的表达水平。
考虑到在d)中鉴定的特征性转录因子的总量反映了目的细胞类型的调控机制,转录因子的覆盖的预定百分比可以被视为被基因组亚区的最小集合覆盖的“调控信息的百分比”。理论上,所覆盖的调控信息的量越高,报道基因或效应基因的表达对细胞类型就更具特异性。然而,有利的是,如通过实验验证所测量的,就细胞类型特异性表达谱而言,覆盖至少30%的调控信息、优选至少40%或50%的百分比产生优异的结果。
在所述方法的步骤h)中,通过以下生成细胞类型特异性表达盒:将在步骤g)中选择的基因组亚区最小的集合与报道子或效应子组装,使得它们可操作地偶联,即包括作为顺式调控元件的转录因子结合位点的基因组亚区被配置为调控报道基因或效应基因的表达。
借助于组装的基因组亚区对调控信息的高覆盖率无需先验信息,为本文所述的方法和构建体提供了巨大的应用潜力。所述表达盒作为报道载体的一部分,可以在体外和体内被利用作为固有细胞状态的报道子,用于对外部信号传导或化学输入、细胞命运转变、重编程、正向和化学遗传筛查的适应性应答。此外,当细胞类型特异性sLCR与内切核酸酶或自杀基因组合时,所述载体可在基因治疗或其他遗传修饰环境中用于使细胞类型、发育阶段或疾病特异性群体缺失。在这些其他遗传修饰设置中,sLCR可以驱动溶瘤病毒和/或共刺激分子的结构组分的肿瘤特异性表达,旨在提高溶瘤治疗的特异性和有效性。
在本发明的优选的实施方式中,所述方法的特征在于所述基因表达谱包括目的细胞类型中基因的表达水平,以及
o根据步骤c)(i)提供参考细胞类型的基因表达谱,所述基因表达谱包括参考细胞类型中基因的表达水平,并且通过鉴定与所述参考细胞类型中的表达水平相比被上调或下调的基因来选择差异调控的标签基因,优选选择在所述目的细胞类型中上调3至10倍或更多的基因,或
o根据步骤c)(ii)根据所述目的细胞类型的基因的基因表达水平将所述目的细胞类型的基因排序,并且基于标签基因的预定水平或预定数量的表达,诸如所述目的细胞类型中100至1000个最高表达的或者100至1000个最低表达的基因,选择标签基因。
第二种替代允许基于可从基因表达谱得到的所述细胞类型的基因的表达水平的比较来选择标签基因。这样的实施方式尤其很好地适于生成在不同的实验设置中代表目的细胞类型的表达盒。为此,选择相比平均表达水平上调3至10倍或更多的基因已产生了优异的结果。
第一种替代允许定制表达盒以区分目的细胞类型相比于参考细胞类型。举例来说,目的细胞类型可以是某种肿瘤细胞,而参考细胞类型是指通常被肿瘤侵袭的组织类型的正常细胞或肿瘤细胞所起源的细胞类型。
然而,参考细胞类型也可以指相同类型的但是处于不同的细胞状态或在命运转变之前或之后的细胞。目的细胞类型的基因表达谱可以是指在上皮至间充质转化(EMT)后处于间充质状态的癌细胞的基因表达谱,而参考细胞类型的基因表达谱可以指相同类型的但是处于其上皮状态,即在上皮-至-间充质转化(ETM)之前的癌细胞的基因表达谱。在此情况下,表达盒将能够区分经历过EMT的细胞与未经历过EMT的细胞。
通过基于与参考细胞类型相比的相对调控选择标签基因而可得到的表达盒的特征在于,具有尤其高的特异性,允许在不需要任何额外标志物下区分参考细胞类型与目的细胞类型。
在本发明的优选实施方式中,所述方法的特征在于所覆盖的转录因子的预定百分比为30%或更多、优选40%或更多、最优选50%或更多。
在本发明的进一步优选的实施方式中,所述方法的特征在于,在e)中确定的基因组区对应于包含差异调控基因的拓扑相关结构域的基因组序列,其中,优选地拓扑相关结构域对应于两个CTFC结合位点之间的基因组序列。
通过基于拓扑相关结构域选择基因组区的大小,可以实现控制所述标签基因的转录的潜在顺式调控元件的最优覆盖。在拓扑相关结构域内,DNA序列物理上的相互作用比与在拓扑相关结构域外的序列更加频繁,从而形成可用于转录机制的三维染色体结构。通过选择两个CTFC结合位点之间的基因组序列,可以获得尤其好的结果。这样的实施方式在计算能力资源、非编码顺式调控DNA对它们最有可能调控的基因的特异性以及覆盖特征性转录因子结合位点的侧翼DNA的大小之间产生最优的平衡。
在所述方法的优选的实施方式中,通过在e)中确定的所述基因组区的滑动窗口算法来进行步骤f)中的对相当例如相等大小的基因组亚区的鉴定,其中,优选地所述窗口具有的长度为500bp至5000bp、优选700bp至2000bp、更优选800bp至1200bp、最优选1000bp,以及所述滑动步长具有的长度为100bp至1000bp、优选120bp至300bp、更优选130bp至170bp、最优选150bp。在一种实施方式中,所述滑动窗口固定为1000bp大小,以150bp步长滑动,尽管扫描产生的基因组亚区大小可能会在大小上变化,因为它取决于TFBS的统计得分和分布。
进一步优选地,所述滑动窗口算法从限于与步骤d)中鉴定的转录因子相对应的转录因子结合位点的相关数据库(例如,JASPAR)计算转录因子结合位点基序的统计富集。因此,生成了特异性区内的特征性转录因子结合位点的显著富集的列表,并用于鉴定相当的、优选相等大小的基因组亚区,所述基因组亚区包括由标签基因编码的至少一个特征性转录因子的至少一个转录因子结合位点。优选地并且最可能地,在相当大小的基因组亚区中包括数十个(10至200,优选在20至180之间)TFBS。
根据本发明,在e)中确定的基因组区的集合内的相当和有限大小优选相等大小的多个基因组亚区(根据步骤f)通常具有相同的大小,但是可以变化。在本文中相当的是指优选展现出500bp至5000bp的任何窗口大小的多个基因组亚区。
在本发明进一步优选的实施方式中,所述基因组亚区具有的长度为100bp至1000bp、优选120bp至300bp、更优选130bp至170bp、最优选150bp。如果使用滑动窗口算法,则基因组亚区的长度将优选与滑动步长相关。在其他实施方式中,滑动窗口方法可以使用任何给定的步长大小,从1bp至最高对于上述窗口大小所指定的那些步长大小。优选的长度已经通过采用对不同细胞类型和测定系统的方法确定,并且反映在表达特异性和表达盒总大小方面的最优结果。
在本发明的进一步优选的实施方式中,所述方法的特征在于g)中的基因组亚区的集合的选择通过计算f)中鉴定的每个基因组亚区来进行:
-在基因组序列数据中根据d)的转录因子的结合位点的富集,以及
-存在结合位点的转录因子的多样性的得分,
-其中,根据存在结合位点的转录因子的累计百分比将所述基因组亚区排序,以及
-其中,选择基因组亚区的最小集合以包括d)中鉴定的所有转录因子的预定百分比的结合位点。
例如,在c)中选择的标签基因的集合内鉴定编码转录因子的基因之后,已经生成了转录因子结合位点的数量和类型。此外,提供了在步骤f)中生成的基因组亚区的列表。用此信息,可以计算每个基因组亚区(例如,TFBS=35)的转录因子结合位点(TFBS)的数量,其代表了在基因组序列数据中根据d)的转录因子的结合位点的富集。此外,优选地,计算每个基因组亚区的转录因子结合位点的多样性。例如,在35个TFBS中,3个TFBS可以存在5次,而剩余的TFBS仅存在一次,得到所述基因组亚区为35个TFBS数量,具有多样性得分为23。
在进一步的步骤中,优选的方法基于TFBS的最高数量和最佳多样性得分将基因组亚区排序。作为排序第一的实例,在基因组基因座chr10:6019558-6019708中,所述方法与间充质GBM状态相关联存在20个TFBS,其中一些重复2至6次。一旦确定了最佳排序的基因组亚区,就可以计算所有剩余基因组亚区中的第二最佳,其中,将存在于第一基因组亚区中的TFBS排除在排序之外。通过迭代可以计算出需要多少不同的基因组亚区来覆盖转录因子结合位点的整个集合或预定的百分比。当需要所有调控潜力(TFBSn x TFBSd)的百分比时,可以生成两个独立的LCR。通常,4-5个元件足以达到最高50%的调控潜力,并且这已被验证为足以生成应答相同的信号传导的两个独立的sLCR(参见实施例)。
在本发明的进一步优选的实施方式中,所述方法的特征在于,h)中的基因组亚区的配置使得包括转录起始位点的基因组亚区组装在编码报道基因的序列的相邻处和上游,并且不包括转录起始位点的基因组亚区优选地组装在从最近的转录起始位点的进一步上游。在此种情况下,尤其优选的,所述方法可以注释包含天然转录起始位点的所有基因组亚区元件(例如150bp元件),以及那些不包含的,并且将从包含转录起始位点的基因组亚区开始排序。在选择了包含转录起始位点的最佳排序的基因组亚区之后,可以独立于无论那些基因组亚区是否包含转录起始位点而进行额外的基因组亚区的排序。
根据本发明,在一些实施方式中,术语“生成细胞类型特异性表达盒”涉及核酸分子的设计和物理产生。在一些实施方式中,术语“生成细胞类型特异性表达盒”涉及在无物理产生相应的核酸分子下设计细胞类型特异性表达盒,例如所述方法可以是计算机实现的方法或可以在所述方法中包括一个或多个计算机实现的步骤。在一些实施方式中,所述方法为或包括计算机实现的元件和产品,作为所述方法的输出,为所述构建体的计算机(insilico)设计、产品、模拟和/或计算机表示。因此,在一些实施方式中,盒或构建体的“生成”可以发生在计算机中,即在计算机软件中,例如,输出可以是核酸序列、核酸序列信息,即以计算机可读格式。
在一些实施方式中,本发明的方法还可以涉及计算机程序产品,诸如软件产品。
该软件可以配置为在通用计算设备上执行,并且配置为实施本文描述的方法的步骤a)至h)中的一个或多个。因此,本发明的计算机程序产品还涵盖并且直接涉及针对本文提供的方法所描述的特征。优选的基于计算机的方法的进一步细节在如本文所述的实例和相关参考文献中提供。如果所述方法是在计算机程序中实施的,例如借助于发明的盒的模拟或计算机设计,则所述序列可以在一些实施方式中随后通过实验室技术人员已知的方法合成并在期望的体外或体内应用中使用。
本发明还涉及用于实施本文所描述的方法的系统,包括一个或多个计算设备、数据存储设备和/或软件作为系统组件,其中,所述组件优选地可以彼此紧邻连接或经由数据连接,例如通过互联网,并且被配置为与所述组件中的一个或多个交互和/或实施本文所述的方法。所述系统可以包括计算设备、数据存储设备和/或适当的软件,例如,单独的软件模块,它们彼此交互以实施本文所描述的方法。
关于计算机实现:
步骤a),关于提供目的细胞类型的基因表达谱,可以是计算机实现的,即,用于目的细胞类型的基因表达谱的信息优选地以计算机可读格式呈现,配置为在所述方法的进一步的步骤中处理。
步骤b),关于提供所述目的细胞类型的基因组序列数据,可以是计算机实现的,即,用于基因组序列数据的信息优选地以计算机可读格式呈现,配置为在所述方法的进一步的步骤中处理。
步骤c),关于从基因表达谱中选择标签基因的集合,其中所述标签基因(i)与参考细胞类型相比受到差异调控或(ii)根据基因表达水平选择,优选地是计算机实现的。在优选的实施方式中,基因及其表达谱以配置为由计算设备处理的格式的信息表示,使得可以基于此信息选择基因的特定组。根据所采用/需要的选择特征或用户的技能,此步骤可以自动化或手动执行。
步骤d),关于鉴定在c)中选择的标签基因的集合中的编码转录因子的基因,优选地以计算机实现的方法实施,由此用功能注释基因,使得在任何一个或多个鉴定的标签基因中可以(任选地)自动询问转录因子功能。如由本文的实例所提及的,可以采用适当的数据库。
步骤e),关于确定来自所述基因组序列数据的基因组区的集合,其中,每个基因组区包括编码在c)中鉴定的标签基因的序列和与编码所述标签基因的序列相邻的额外的基因组序列,优选地以计算机实现的方法实施。技术人员可以基于基因组序列,即可从数据库中获得的,通过使用自动选择准则,或通过手动评估和选择相邻序列,来实施与目的基因相邻的基因组序列的评估和选择。
步骤f),关于鉴定在e)中确定的所述基因组区的集合内的具有相等大小的多个基因组亚区,其中,所述基因组亚区包括在d)中鉴定的一个或多个转录因子的一个或多个结合位点,优选地使用计算机实现的方法来实施。一个或多个转录因子的结合位点的鉴定可以使用本领域建立的方法来实施,例如,搜索和/或询问任何给定的序列是否存在由特定序列或序列基序定义的已知结合位点。被配置为筛选序列是否存在这样的已知序列的软件对于本领域技术人员是可获得的。
步骤g),关于从f)中确定的基因组亚区中选择基因组亚区的最小集合,优选2至10个之间,其中,选择所述基因组亚区的集合以包括在d)中鉴定的所有转录因子的预定百分比的转录因子结合位点,优选地使用(任选地)自动化计算机算法来实施。以上提供了确定基因组亚区的细节。适用于选择期望的基因组亚区的软件方案有多种选项,或者该选择可以通过熟练的用户评估各种亚区并将它们编译为包括步骤d)中鉴定的相关转录因子的一定百分比的结合位点来手动实施。
技术人员可以使用已建立的编程、编码和生物信息学技术来设计和/或配置软件,以评估基因组亚区中转录因子结合位点的存在,将这些结合位点与鉴定为标签基因的转录因子进行比较,并选择基因组亚区的编译以覆盖预定百分比的相关转录因子。
根据所述方法的步骤h),生成了包括与报道基因或效应基因可操作地偶联的在步骤g)中选择的基因组亚区的集合的细胞类型特异性表达盒。如上所述,所述“生成”可以涉及计算机可读形式的核酸序列信息的计算机实现的产生和/或涉及基于和/或包括所述序列的物理核酸分子的合成。
本发明因此进一步涉及用于设计和/或制造对应于、包括或基于从步骤a)至g)获得的产物DNA序列信息的核酸分子的方法。所述方法优选地包括包括实施本文所描述的方法,和随后合成、克隆和/或分离所述核酸分子。
在这样的实施方式中,术语“生成盒”可以包括用于在生成核酸分子中使用的克隆、突变、重组、PCR扩增和/或合成的任何相关分子生物学或化学技术。
在优选的实施方式中,基于通过本发明的方法获得的信息,使用从头核酸合成来合成盒。
在进一步优选的实施方式中,本发明涉及包括通过本文所描述的方法生成的表达盒的细胞类型特异性报道载体。
在进一步的方面,本发明涉及细胞类型特异性报道载体,包括合成调控区,所述合成调控区包括2至10个100bp至1000bp的基因组亚区,所述基因组亚区位置相邻,没有接头或具有小于100bp的接头序列位于所述亚区之间,其中所述亚区源自目的细胞类型的同一基因组中的分开(非相邻)的位置,其中所述亚区累计包括至少5个、优选至少10个、最优选至少20个转录因子的结合位点,以及
报道基因或效应基因,
其中,所述基因组亚区与报道基因或效应基因可操作地偶联,以调控所述报道基因或效应基因的表达。
尤其优选地,通过根据如本文所描述的步骤a)至g)的方法选择基因组亚区。本领域技术人员将理解,对于所述方法公开的优选实施方式同样适用于本文所描述的细胞类型特异性报道载体。本发明的方法导致载体的结构特征在该领域中是独特的。
本发明的优选实施方式涉及构建体设计,其中,来自基因组亚区的转录因子结合位点具有的长度为100至1500bp或100至1250bp、优选100至1000bp、更优选120bp至300bp、更优选130bp至170bp、最优选基本上150bp,与来自相同基因组的非相邻区的基因组亚区的起源组合。通过此种组合,本发明的构建体由新的从头且无偏倚的构建定义,通过将反映出调控信息的相关大小的不同/分开的但高度相关的调控区聚集在一起,尤其是对于优选120bp至300bp、更优选130bp至170bp、最优选150bp的大小,这近似DNA包裹在其上的组蛋白颗粒的大小。
本发明的优选实施方式涉及构建体设计,其中,使用5个或更多个转录因子结合位点,即,通过将足够数量的TFBS聚集在一起以覆盖在任何给定细胞类型/状态中的相关TF的大的调控部分,更高数量的TFBS反应出新的从头且无偏倚的构建。
基因组亚区的特征在于它们源自细胞类型的相同基因组中分开的位置,并且累计包括至少5个、优选至少10个、最优选至少20个或更多个转录因子的结合位点。在一些实施方式中,编译2-10(即2、3、4、5、6、7、8、9或10)个基因组亚区以形成包括至少5、10、15、20、25、30、35、40或更多的转录因子结合位点的sLCR。因此,基因组亚区覆盖了通常足以覆盖目的细胞类型的调控信息的大量转录因子的结合位点。优选的转录因子的结合位点是指在目的细胞类型中特征性表达的转录因子。为确定在目的细胞类型中特征性表达的转录因子,例如可以采用本文所描述的方法的步骤a)至d)。
使用包括2至10个具有100bp至1000bp的长度的此类基因组亚区的合成调控区,已证明是就最小化载体大小,同时维持由转录因子结合位点表示的大量调控信息而言的最优方案。
在此方面,使基因组亚区位置相邻而无接头或具有小于100bp的接头序列,也确保了报道载体的紧凑设计和不包括大量的调控信息下的有效转导。
在本发明的尤其优选的实施方式中,所述载体的特征在于所述基因组亚区的每个具有的长度为120bp至300bp、更优选地130bp至170bp、最优选地150bp。基因组亚区的这样的长度最优地覆盖了在背景基因组区上富集统计显著性的相关转录因子结合位点。最优大小为150bp可能是由于组蛋白在其核心颗粒周围包裹着大约146个DNA基因组碱基对(bp),阻止了转录因子的接近。相反,无核小体区(NFR),其通常与活性顺式调控DNA相关,当展开DNA后使得转录因子可以接近,因此其最小为146pb。顺式调控DNA的平均大小通常由NFR的平均大小推断——也被称为DNAseI超敏感位点——其为约1000bp,并且通常在这些长度尺度上包含相关转录因子结合位点的聚类。
在本发明的进一步优选的实施方式中,所述载体的特征在于与报道基因或效应基因相邻的基因组亚区包括转录起始位点。这确保了效应子和报道子处于框架中,并且可以由上游合成调控区正向调控。
本文所描述的本发明的独特设计具有以下优点:根据期望的应用,可以将多种报道基因或效应基因偶联至包括基因组亚区的合成调控区。
在本发明的优选实施方式中,载体的特征在于报道基因或效应基因编码选自包括以下的组的蛋白:荧光蛋白、自杀基因、荧光素酶、β-半乳糖苷酶、氯霉素乙酰转移酶、表面受体、蛋白标签包括但不限于6XHis标签、V5标签、GFP标签、自加工核酶盒、甲羟戊酸激酶及其衍生物、生物素连接酶及其衍生物包括但不限于BirA、工程化过氧化物酶及其衍生物包括但不限于APEX2、内切核酸酶或位点特异性重组酶及其衍生物包括但不限于限制性酶、Cre、Flp、Tn5、SpCas9、SaCas9、TALENs、矫正单基因疾病的基因、病毒抗原诸如E1A和E1B以诱导细胞类型特异性疫苗接种、或佐剂细胞因子/趋化因子以增强免疫识别诸如GM-CSF或IL-12。
荧光蛋白可尤其适用于对于指示报道基因的表达的信号的任何种类的光学测量。为此,所述方法可以从使用现有技术的显微和/或荧光激活的细胞分选设备和定量技术中受益。
此外,本发明可以使用不同种类的载体系统而很容易采用,并且容易地适用于目的细胞。
在本发明的优选的实施方式中,载体是病毒载体,优选慢病毒或腺相关病毒载体。
在本发明的进一步优选的实施方式中,载体包括根据SEQ ID NO 1-6的核酸序列或与SEQ ID NO 1-6的任何一个具有至少80%、优选至少90%的同一性的核酸序列。
如本文所描述的,本发明允许提供细胞类型特异性载体构建体,其在目的细胞类型中介导期望的报道基因或效应基因的可靠表达而无需先验知识。这样,载体构建体允许从基础研究到临床研究或治疗策略的各种不同应用。
例如,载体构建体可用于鉴定细胞类型或确定细胞的固有细胞状态或发育状态。所述载体还允许研究细胞如何与外部信号或化学物质反应。此外,所述载体可用于诊断学,例如确定癌症的状态或类型,例如上皮或间充质胶质母细胞瘤是否存在,并且从而允许更有效的治疗指导。此外,所述载体本身也可以用作药物剂,例如在基因治疗方法中。
在优选的实施方式中,本发明涉及载体用于在基因和病毒治疗、药物发现或验证中转化细胞和/或确定细胞特性优选细胞类型、状态或命运转变的用途。
如本文所述的载体或sLCR在已经转化的细胞内的存在,被本发明的实施方式所覆盖。
在一种实施方式中,本发明涉及用于确定细胞特性优选细胞类型、状态或命运转变的方法,包括以下步骤
a.提供如本文所描述的细胞类型特异性报道载体,
b.提供细胞,
c.用所述载体转导细胞,
d.测量指示报道基因或效应基因的表达的信号,其中,所述信号的量对所述细胞的特性优选细胞类型、状态或命运转变有指导性。
可以采用任何合适的测量技术。例如,所述报道基因或效应基因可以是荧光蛋白,在这种情况下,可以使用显微设备定量评估荧光信号,并从而定量评估所探测的细胞中报道基因或效应基因的表达。
在一种实施方式中,本发明涉及用于确定固有细胞状态的方法,包括以下步骤
a.提供如本文所描述的细胞类型特异性报道载体,
b.提供其中固有细胞状态存在或不存在或可选地可诱导的细胞,
c.用所述载体转导细胞,
d.任选地诱导细胞,
e.测量指示报道基因的表达的信号,其中,所述信号的量对细胞中的每一个的固有细胞状态有指导性。
在一种实施方式中,本发明涉及用于确定细胞命运转变的方法,包括以下步骤:
a.提供如本文所描述的细胞类型特异性报道载体,
b.提供响应于外部信号传导和/或化学扰动而经历命运转变的细胞,
c.用所述载体转导细胞,
d.将细胞暴露于外部信号传导和/或化学扰动下,
e.测量指示报道基因的表达的信号,其中,所述信号的量对细胞的命运转变有指导性。
在一种实施方式中,本发明涉及用于确定细胞命运重编程因子的方法,包括以下步骤:
a.提供如本文所描述的细胞类型特异性报道载体,
b.提供响应于包括转录因子的重编程因子、外部信号传导和/或化学扰动而经历命运转变的细胞,
c.用所述载体转导细胞,
d.将细胞暴露于转录因子、外部信号传导和/或化学扰动下,
e.测量指示报道基因的表达的信号,其中,所述信号的量对引入细胞的命运转变的因子有指导性。
在一种实施方式中,本发明涉及用于确定预期表型的体外细胞增殖的最低要求的方法,包括以下步骤:
a.提供如本文所描述的细胞类型特异性报道载体,
b.提供在体内具有固有标签的细胞,
c.用反映所述标签的所述载体转导细胞,
d.将细胞暴露于一系列生物和化学物质下,
e.测量指示预期表型的信号,其中,所述信号的量对所述表型有指导性。
在一种实施方式中,本发明涉及用于疾病细胞的靶向的矫正的方法,包括以下步骤:
a.提供如本文所描述的细胞类型特异性报道载体,
b.提供具有固有疾病状态的细胞,所述固有疾病状态可以通过给定基因给定细胞的表达或消除来矫正
c.用驱动矫正所述疾病的基因、或自杀基因、或内切核酸酶的表达的所述载体转导细胞
d.将细胞暴露于矫正所述疾病的基因下、于激活自杀基因或内切核酸酶的药物下
e.测量指示报道基因的表达的信号和指示疾病矫正的信号。
在一种实施方式中,本发明涉及用于溶瘤病毒治疗的方法,包括含有以下步骤:
a.提供如本文所描述的肿瘤细胞类型特异性报道子,
b.提供编码溶瘤病毒基因组的载体,包括腺病毒、马拉巴病毒(Maraba)、VSV、HSV-1、麻疹病毒(Measles)、呼肠孤病毒(Reovirus)、逆转录病毒和牛痘病毒,可以对所述载体进行修饰以在肿瘤sLCR的表达下转基因表达肿瘤相关抗原(TAA)和/或分子佐剂,
c.用所述载体生成病毒颗粒,
d.用所述病毒颗粒转导靶生物体以感染肿瘤细胞,
e.测量肿瘤组织内且非周围组织内的病毒遗传物质。
本文描述的方法,例如用于确定细胞特性优选细胞类型、状态或命运转变的那些方法,可以在各种生物学、生物技术或药物(筛选)设置中采用。
本发明的进一步的实施方式涉及使用DNA甲基化和/或ATAC-seq谱作为标签基因发现的输入。
ATAC-seq(使用测序的转座酶可及性染色质测定)是一项用于评估全基因组染色质可及性的技术,通过用将测序衔接子(adapter)插入基因组的开放区的高活性突变体Tn5转座酶探测开放染色质。突变的Tn5转座酶会在称为tagmentation的过程中切割任何足够长的DNA,从而通过预负载有测序衔接子的Tn5转座酶进行DNA的同时片段化和标记。然后将标记的DNA片段纯化、通过PCR扩增并送去测序。然后可以将测序读段用于推断可及性增加的区,以及映射转录因子结合位点和核小体位置的区。
几类顺式调控元件的染色质可及性是由转录因子结合的体内DNA的预测标志物。染色质中所有可及位点的库(repertoire)是细胞标识(identity)的最强预测因子。事实上,在癌症中,染色质可及性是癌症类型相似性的最强预测因子,并且可用于鉴定个体癌症类型的常见二维空间内的亚型标识。为了研究由sLCR描述的获得的异质性是否伴随着全基因组染色质可及性的变化,可以根据本文所描述的报道构建体的表达水平细胞分选进行ATAC-seq。因此,染色质可及性的差异分析可以发现许多正在经历重构的基因。在下面的实施例中描述的这些结果突显了sLCR在以下中的效力:揭示例如肿瘤内异质性,并能够对肿瘤模型与主要的癌症数据一起进行深入的细胞和分子表征。
本发明的进一步实施方式涉及在应激反应(例如杀死具有高ER应激或炎症信号传导的细胞)和senolitic(例如杀死衰老细胞)的领域中对药物靶标的靶标发现和验证。
使用本发明的方法,可以针对任何给定的细胞状态鉴定特异性调控谱,并且有效地生成报道构建体。在一些实施方式中,可以针对具有高ER应激或炎症信号传导或经历衰老的细胞类型/状态生成sLCR。因此,这样的报道子可用于测量是否有任何给定的药物候选,即在筛选期间应用的,导致细胞状态改变。
本发明的进一步实施方式涉及在细胞标识/命运改变的领域中对药物靶标的靶标发现和验证。如本文详细描述的,可以针对任何给定的细胞标识或针对标识或命运改变之前和之后的状态,鉴定特异性调控谱,并有效地生成报道构建体。在一些实施方式中,可以在标识改变之前和之后针对细胞类型生成sLCR。因此,这样的报道子可用于测量是否有任何给定的药物候选,即在筛选期间应用的,导致细胞状态改变。
本发明的进一步实施方式涉及使用本文所述的方法和构建体对于合成肽的靶标发现和验证。
本发明的进一步实施方式涉及使用本文所述的方法和构建体对于治疗性外体(exosome)和反义寡核苷酸的靶标发现和验证。
本发明的进一步实施方式涉及在免疫治疗中药物候选的治疗潜力的发现,包括但不限于先天免疫细胞在治疗应答和抗性中的作用,以及sLCR工程化治疗性适应性免疫细胞(T细胞,NK)以抵抗衰竭和主要靶标特异性的用途。
在一些实施方式中,可以生成sLCR作为免疫细胞活性和/或靶标特异性的读出,并且可以测试候选分子并且测量sLCR读出的变化,以便评估免疫细胞(T细胞,NK)当用候选化合物增强/处理时是否可以抵抗衰竭。
在进一步的实施方式中,本发明涉及用于确定合成基因座控制区(sLCR)的序列的计算机实现的方法,包括如本文所描述的方法的步骤a)至g)。因此,本发明还涉及能够并且适于实施如本文所描述的方法步骤a)至g)的计算机软件产品,以及用于本文所述的方法的包括指令的计算机程序,其中当计算机执行该程序时,这些指令使得计算机实施本文所述方法的步骤a)至g)。
具体实施方式
本发明涉及用于生成细胞类型特异性表达盒的方法、使用这样的表达盒的细胞类型特异性载体以及这样的载体的应用。在关于实施例描述本发明之前,应当理解,本文使用的术语仅是为了描述特定实施方式的目的,并不旨在限制本发明的范围。
所有引用的专利和非专利文献的文件,其全部内容通过援引并入本文。除非本文另有描述,否则所有术语均应具有其通常的技术含义。
如本文所用,术语“表达盒”是指包括足以表达基因产物的核酸元件的核酸构建体。如本文所述,表达盒还涵盖表达盒的电子表示。典型地,表达盒包括编码为基因产物的核酸(序列),报道基因或功能效应子可操作地连接至包括转录结合位点的所选基因组亚区,所述转录结合位点充当基因产物的表达的调控元件。
如本文所用,术语“合成顺式调控DNA”、“合成调控区”或“合成基因座控制区(sLCR)”是指包括以非天然存在的顺序(即在天然存在的基因组中不以这种顺序或排列存在)相邻(有或没有间隔子)排列的经验证的和/或潜在的(假定的/预测的)顺式调控序列的多个基因组亚区的排列。顺式调控序列的实例是转录因子结合位点(TFBS)、启动子、增强子、沉默子或能够顺式作用于编码区的表达的其他调控序列。当将这些调控区排列到合成调控区内时,这些调控区典型地是细胞类型的特征。本文所描述的方法优选地将这些调控区组装到包括目的细胞类型内的转录调控序列信息的相关部分的基因组亚区的集合中。
如本文所用,术语“报道载体”是指包括表达盒和允许将表达盒在体外或体内引入细胞中的进一步的核酸元件的核酸构建体。术语“报道载体”、“载体”和“效应子载体”可以互换使用。“载体”可以具有一个或多个限制性内切核酸酶识别位点(I、II或IIs型),在该位点可以以可确定的方式切割序列而不会损失载体的基本生物学功能,并且在该位点中可以剪接或插入核酸片段以实现其复制和克隆。载体还可包括允许在两个核酸分子之间交换核酸序列的一个或多个重组位点。载体可以进一步提供引物位点,例如用于PCR、转录和/或翻译起始和/或调控位点、重组信号、复制子、选择标志物等。载体可以进一步包含适合用于鉴定用载体转化的细胞的一种或多种选择标志物。本领域已知的载体和可商购的那些(及其变体或衍生物)可以与本文所描述的表达盒一起使用。此类载体可以从以下获得,例如Vector Laboratories Inc.、Invitrogen、Promega、Novagen、NEB、Clontech、BoehringerMannheim、Pharmacia、EpiCenter、OriGenes Technologies Inc.、Stratagene、PerkinElmer、Pharmingen和Research Genetics,或者可以通过Addgene在科学家之间自由分配。
如本文所用,术语“病毒载体”是指包括病毒起源的至少一个元件并且具有被包装至病毒载体颗粒中的能力,编码至少一种外源核酸的核酸载体构建体。载体和/或颗粒可以用于在体外或体内将任何核酸转移到细胞中的目的。病毒载体的多种形式是本领域已知的。术语病毒粒子用于指单个感染性病毒颗粒。“病毒载体”、“病毒载体颗粒”和“病毒颗粒”还指具有其DNA或RNA核心和蛋白外壳(因为其存在于细胞外部)的完整病毒颗粒。
术语“转染”优选是指将DNA递送至真核(例如哺乳动物)细胞中。术语“转化”优选是指将DNA递送至原核(例如大肠杆菌)细胞中。术语“转导”优选是指用病毒颗粒感染细胞。核酸分子可以稳定地整合至本领域通常已知的基因组中。然而,术语“转导”、“转染”和“转化”在本文中可以互换使用,并且是指将包括表达盒的载体引入细胞的过程。
如本文所用,术语“细胞类型特异性”涉及当将如本文所描述的表达盒引入与其他(例如参考细胞)相比的目的细胞中时,报道基因或效应基因的表达的特异性。术语细胞类型特异性涵盖特异于目的细胞的细胞类型及其细胞状态或命运的表达(水平)。术语细胞类型特异性表达盒或载体因此涵盖细胞状态特异性以及细胞命运特异性表达盒或载体。
如本文所用,术语“报道子”、“效应子”或“报道基因或效应基因”是指由包括在如本文提供的表达构建体中的核酸编码的基因产物,其可以通过本领域已知的测定或方法来检测,因此“报道”构建体的表达和/或“效应”它们在其中表达的细胞的状态或命运。报道子和效应子以及编码报道子的核酸序列是本领域众所周知的。报道子或效应子包括例如荧光蛋白,诸如绿色荧光蛋白(GFP)、蓝色荧光蛋白(BFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、增强的荧光蛋白衍生物(例如eGFP、eYFP、mVenus、eRFP、mCherry等)、酶(例如催化产生可检测产物的反应的酶,诸如荧光素酶、β-葡糖醛酸糖苷酶、氯霉素乙酰转移酶、氨基糖苷磷酸转移酶、氨基环醇磷酸转移酶或嘌呤霉素N-乙酰基-转移酶)和表面抗原。适当的报道子或效应子对于相关领域的技术人员将是显而易见的。优选的蛋白选自包括以下的组:荧光蛋白、自杀基因包括但不限于胸苷激酶、荧光素酶、β-半乳糖苷酶、氯霉素乙酰转移酶、表面受体、蛋白标签包括但不限于6XHis标签、V5标签、GFP标签、自加工核酶盒、甲羟戊酸激酶及其衍生物、生物素连接酶及其衍生物包括但不限于BirA、工程化过氧化物酶及其衍生物包括但不限于APEX2、内切核酸酶或位点特异性重组酶及其衍生物包括但不限于限制性酶、Cre、Flp、Tn5、SpCas9、SaCas9、TALENs、矫正单基因疾病的基因、肿瘤相关的抗原或编码免疫调节剂以促进免疫治疗的基因包括但不限于MAGEA3m GM-CSF、IFNγ、IFNβ、CXCL-9-10-11。
术语“基因”基本上意指当可操作地连接至合适的调控序列时,在体外或体内被转录(DNA)以及被翻译(mRNA)成多肽的编码核酸序列。该基因可以包括或可以不包括在编码区之前和之后的区,例如5'非翻译(5'UTR)或“前导”序列和3'UTR或“尾随(trailer)”序列,以及各个编码片段(外显子)之间的插入序列(内含子)。
如本文所用,“基因表达”是指基因的绝对或相对表达水平和/或表达模式。可以在DNA、cDNA、RNA、mRNA、蛋白质或其组合的水平上测量基因的表达。基因表达也可以从蛋白表达中推断。
“基因表达谱”是指针对目的细胞类型测量的多个不同基因的表达水平。基因表达谱可以在样本中,诸如包括各种细胞类型、不同组织、不同器官或体液(例如血液、尿、脊髓液、汗、唾液或血清)的样本中,通过以下各种方法测量:包括但不限于通过大规模平行标签测序(MPSS)的RNA-SEQ、基因表达系列分析(SAGE)技术、微阵列技术、微流控技术、原位杂交方法、定量和半定量RT-PCR技术或质谱技术。
本文涵盖了本领域中可用于检测基因表达的任何方法。“检测表达”旨在确定RNA转录物或其表达产物例如在蛋白水平上的量或存在。
如本文所用,应用于基因的术语“表达水平”是指基因产物的归一化水平,例如对于基因的RNA表达水平或对于基因的多肽表达水平所确定的归一化值。
本文使用的术语“基因产物”或“表达产物”是指基因的RNA转录产物(转录物),包括mRNA,以及此类RNA转录物的多肽翻译产物。基因产物可以是例如未剪接的RNA、mRNA、剪接变体mRNA、微RNA、片段化RNA、多肽、翻译后修饰的多肽、剪接变体多肽等。如本文所用,术语“RNA转录物”是指基因的RNA转录产物,包括例如mRNA、未剪接的RNA、剪接变体mRNA、微RNA和片段化RNA。
用于检测本发明基因的表达的方法,即基因表达谱分析,包括基于多核苷酸的杂交分析的方法、基于多核苷酸的测序的方法、免疫组织化学法和基于蛋白质组学的方法。这些方法通常检测基因的表达产物(例如,mRNA)。
许多表达检测方法使用分离的RNA。起始材料典型地是从生物学样本诸如分别为目的细胞类型和参考细胞类型中分离的总RNA。
用于RNA提取的一般方法是本领域众所周知的,并且公开在分子生物学的标准教科书中,包括Ausubel et al.,ed.,Current Protocols in Molecular Biology,JohnWiley&Sons,New York1987-1999。用于从石蜡包埋的组织中提取RNA的方法公开于例如Rupp和Locker(Lab Invest.56:A67,1987)以及De Andres et al.(Biotechniques 18:42-44,1995)中。特别地,可以使用来自商业生产商诸如Qiagen(瓦伦西亚,加利福尼亚州)的纯化试剂盒、缓冲液组和蛋白酶,根据生产商的说明书进行RNA分离。
分离的RNA可以用于杂交或扩增测定中,包括但不限于PCR分析和探针阵列。一种用于检测RNA水平的方法涉及使分离的RNA与可以杂交至由被检测的基因编码的mRNA的核酸分子(探针)接触。核酸探针可以是例如全长cDNA或其部分,诸如至少7、15、30、60、100、250或500个核苷酸长度并且足以在严格条件下特异性杂交至本发明的固有基因的寡核苷酸,或任何衍生的DNA或RNA。mRNA与探针的杂交表明所讨论的固有基因正在被表达。
替代地,在目的细胞类型中基因表达的水平涉及核酸扩增的过程,例如,通过RT-PCR(美国专利No.4,683,202)、连接酶链反应(Barany,Proc.Natl.Acad.Sci.USA 88:189-93,1991)、自我持续序列复制(Guatelli et al.,Proc.Natl.Acad.Sci.USA 87:1874-78,1990)、转录扩增系统(Kwoh et al.,Proc.Natl.Acad.Sci.USA 86:1173-77,1989)、Q-Beta复制酶(Lizardi et al.,Bio/Technology 6:1197,1988)、滚环复制(美国专利No.5,854,033)或任何其他核酸扩增方法,随后是使用本领域技术人员众所周知的技术检测扩增的分子。如果核酸分子以非常低的数量存在,那么这些检测方案特别适用于这类分子的检测。
特别地,可以通过定量RT-PCR评估基因表达。许多不同的PCR或QPCR方案是本领域已知的。通常,在PCR中,通过与至少一种寡核苷酸引物或寡核苷酸引物对反应来扩增靶多核苷酸序列。一种或多种引物与靶核酸的互补区杂交,并且DNA聚合酶延伸一种或多种引物以扩增靶序列。在足以提供基于聚合酶的核酸扩增产物的条件下,一种大小的核酸片段在反应产物(作为扩增产物的靶多核苷酸序列)中占主导。重复扩增循环以增加单个靶多核苷酸序列的浓度。该反应可以在通常用于PCR的任何热循环仪中进行。然而,优选的是具有实时荧光测量功能的循环仪。
在一些情况下,优选定量PCR(QPCR)(也称为实时PCR),因为它不仅提供定量测量,而且减少时间和污染。如本文所用,“定量PCR”(或“实时QPCR”)是指在其发生时直接监测PCR扩增的进程,而无需重复采样反应产物。在定量PCR中,可以在信号升高到高于背景水平之后但在反应达到平稳之前,随着反应产物被生成并被跟踪而经由信号传导机制(例如,荧光)监测反应产物。在PCR过程开始时,达到可检测的或“阈值”水平的荧光所需的循环数量直接随可扩增靶的浓度而变化,从而能够测量信号传导强度,以提供对样本中靶核酸量的实时测量。
此外,微阵列可用于基因表达谱分析。“微阵列”意指可杂交的阵列元件诸如例如多核苷酸探针在基质上的有序排列。术语“探针”是指能够选择性结合至特定的靶生物分子的任何分子,例如,由固有基因编码或与固有基因相对应的核苷酸转录物或蛋白。探针可以由本领域技术人员合成,或衍生自适当的生物制剂。探针可以特别设计为有标记的。可用作探针的分子的实例包括但不限于RNA、DNA、蛋白、抗体和有机分子。
DNA微阵列提供了一种用于同时测量大量基因的表达水平的方法。每个阵列由附接在固体承载体上的捕获探针的可重复模式组成。标记的RNA或DNA与阵列上的互补探针杂交,并然后通过激光扫描检测。确定阵列上每个探针的杂交强度,并将其转换为表示相对基因表达水平的定量值。参见,例如,美国专利Nos.6,040,138、5,800,992和6,020,135、6,033,860和6,344,316。高密度寡核苷酸阵列对于确定样本中大量RNA的基因表达谱尤其有用。
基因表达的系列分析(SAGE)是一种允许对大量基因转录物进行同时和定量分析的方法,而无需为每个转录物提供单独的杂交探针。首先,生成包含足够的信息以唯一地鉴定转录物的短序列标签(约10-14bp),前提是该标签是从每个转录物内的唯一位置获得的。然后,许多转录物连接在一起以形成可以被测序的长系列分子,同时揭示多个标签的鉴定。通过确定单个标签的丰度并鉴定与每个标签相对应的基因,可以定量评估任何转录物群体的表达模式。更多详细信息请参见Velculescu et al.,Science 270:484-487(1995);以及Velculescu et al.,Cell 88:243-51(1997)。
核酸测序技术是分析基因表达的合适方法。这些方法潜在的原理是在样本中检测到cDNA序列的次数与对应于该序列的mRNA的相对表达直接相关。
这些方法有时被称为术语数字基因表达(DGE),以反映所得数据的离散数值属性。应用此原理的早期方法是基因表达的系列分析(SAGE)和大规模平行标签测序(MPSS)。参见,例如S.Brenner,et al.,Nature Biotechnology 18(6):630-634(2000)。
“下一代”测序技术的出现已使DGE变得更简单、更高通量和更实惠。结果,与以往相比,更多的实验室能够利用DGE在更多目的细胞类型中筛选更多基因的表达。参见例如J.Marioni,Genome Research 18(9):1509-1517(2008);R.Morin,Genome Research 18(4):610 621(2008);A.Mortazavi,Nature Methods5(7):621-628(2008):N.Cloonan,Nature Methods 5(7):613-619(2008)。
下一代测序通常允许比传统的Sanger方法显著更高的通量。参见Schuster,Next-generation sequencing transforms today's biology,Nature Methods 5:16-18(2008);Metzker,Sequencing technologies the next generation.Nat Rev Genet.2010January;11(1):31-46。这些平台可以允许对核酸片段的克隆扩张的或未扩增的单分子进行测序。某些平台涉及,例如,通过染料修饰探针的连接(包括环状连接和切割)测序、焦磷酸测序和单分子测序。核苷酸序列种类、扩增核酸种类和由此生成的可检测产物可以通过这样的序列分析平台进行分析。下一代测序可以在本发明的方法中使用,例如,以确定目的细胞类型的基因表达谱或基因组序列数据。
RNA测序(RNA-Seq)使用大规模平行测序以允许例如对基因组进行转录物组分析,其分辨率通常远高于基于Sanger测序和微阵列的方法获得的分辨率。在RNA-Seq方法中,使用下一代测序技术对从目的RNA生成的互补DNA(cDNA)进行直接测序。RNA-Seq已成功用于精确定量转录物水平,确认或修改基因的先前注释的5'和3'末端,以及映射外显子/内含子边界(Eminaga et al.,201 3.Quantification of microRNA Expression with Next-Generation Sequencing.Current Protocols in Molecular Biology.103:4.1 7.1-4.17.14)。
如本文所用,“测序”因此是指允许鉴定核酸的至少一部分的连续核苷酸的本领域已知的任何技术。示例性测序技术包括IlluminaTM测序、直接测序、随机鸟枪法测序、Sanger双脱氧终止测序、全基因组测序、大规模平行标签测序(MPSS)、RNA-seq(也称为全转录物组测序)、通过杂交的测序、焦磷酸测序、毛细管电泳、凝胶电泳、双重(duplex)测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模平行标签测序、乳液PCR、通过可逆染料终止子测序、双末端测序、短期(near-term)测序、外切核酸酶测序、通过连接测序、短读段测序、单分子测序、通过合成测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析仪测序、SOLiDTM测序、Illumina Hiseq4000、Illumina NextSeq500、Illumina MiSeq和Miniseq、MS-PET测序、质谱及其组合。
基因表达谱也可以从蛋白质组的信息中推导出来。术语“蛋白质组”在本文中定义为在一定时间点存在于细胞类型中的蛋白的全体。蛋白质组学除了其他方面还包括研究样本中蛋白表达的整体变化(也称为“表达蛋白质组学”)。蛋白质组学通常包括以下步骤:(1)通过2-D凝胶电泳(2-D PAGE)分离样本中的单个蛋白;(2)鉴定从凝胶中回收的单个蛋白,例如my质谱或N端测序,以及(3)使用生物信息学对数据进行分析。
如本文所用,术语“基因组”通常是指以一个或多个核酸序列的形式的遗传信息的完整集合,包括其文本或计算机表示。基因组可以包括DNA或RNA,取决于其起源的生物体。大多数生物体具有DNA基因组,而一些病毒具有RNA基因组。如本文所用,术语“基因组”不必包括遗传信息的完整集合。该术语还可以指基因组的至少大部分,诸如整个基因组的至少50%至100%或它们之间的任何整数或分数百分比。
术语“基因组序列数据”是指基因组上的数据,包括其文本或计算机表示,其中基因组序列数据还可以涉及优选大部分基因组诸如整个基因组的至少50%至100%或其中间的任何整数或分数百分比的基因组。
提供基因组序列数据可以包括对目的细胞类型的基因组的实际测序,或者依赖于基因组序列数据的公共可用的数据库,诸如由国家基因组资源中心(National Center forGenome Resources,NCGR)操作的注释的基因组序列数据库(GSDB)。提供大量物种的基因组序列数据可通过由UC Santa Cruz(CA,USA)的UCSC基因组浏览器组(Genome BrowserGroup)创建的UCSC基因组浏览器公开获得。
如本文所用,术语“基因组区”通常是指基因组的区。典型地,基因组区是指包括至少一个基因的目的细胞类型的基因组的连续核酸序列延伸。
术语“基因组亚区”是指基因组区的一部分,其如本文所描述被鉴定为包括已经基于一个或多个基因表达谱被鉴定为标签基因的一个或多个转录因子的一个或多个结合位点。
术语“核酸”是指任何核酸分子,包括但不限于单链或双链形式的DNA、RNA及其杂交体或修饰的变体和聚合物(“多核苷酸”)。除非特别限制,否则该术语涵盖包含天然核苷酸的已知类似物的核酸,其具有与参考核酸相似的结合特性并且以与天然存在的核苷酸相似的方式代谢。除非另有说明,否则特定的核酸分子/多核苷酸还隐含地涵盖其保守修饰的变体(例如简并密码子替换)和互补序列以及明确指出的序列。具体而言,简并密码子替换可以通过生成在其中将一个或多个所选(或全部)密码子的第三位置用混合碱基和/或脱氧肌苷残基替换的序列来实现(Batzer et al.,Nucleic Acid Res.19:5081(1991);Ohtsukaet al.,J.Biol.Chem.260:2605-2608(1985);Rossolini et al.,Mol.Cell.Probes 8:91-98(1994))。核苷酸通过以下标准缩写由其碱基表示:腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)。
“外源核酸”或“外源遗传元件”涉及引入细胞的任何核酸,其不是细胞“原始”或“天然”基因组的成分。外源核酸可以是整合的或非整合的,或涉及稳定转染的核酸。
“功能变体”或“功能类似物”优选是指分别具有与参考序列“相同”、“基本上相同”、“大体上相同”、“同源”或“相似”的核苷酸序列或氨基酸序列的核酸或蛋白,通过非限制性实例,该参考序列可以是分离的核酸或蛋白的序列,或者是通过比较两种或更多种相关的核酸或蛋白而获得的共有序列,或者是给定核酸或蛋白的同种型的组。同种型类型的非限制性实例包括由例如交替的RNA剪接或蛋白水解切割产生的不同分子量的同种型;并且同种型具有不同的翻译后修饰,诸如糖基化;等等。
如本文所用,术语“变体”或“类似物”是指不同于参考核酸或多肽但保留其基本特性的核酸或多肽。通常,变体总体上非常相似,并且在许多区中与参考核酸或多肽相同。因此,转录因子的“变体”形式总体上非常相似,并且能够结合DNA并激活基因转录。
如本文所用,术语“有义链”是指被翻译或可翻译成蛋白的基因的DNA链。当基因相对于核酸序列中的启动子沿“有义方向”定向时,“有义链”位于启动子下游的5’末端,蛋白的第一个密码子位于启动子的近端,并且最后一个密码子位于启动子的远端。相反的被称为“反义”链。
如本文所用,术语“可操作地连接”是指在核酸构建体中的调控元件被配置为使得能够在调控元件和基因之间功能性偶联,从而导致基因的表达,即,调控元件优选地与编码蛋白或肽的核酸在框内。
如本文所用,术语“包括(comprising)”或“包括(comprises)”用于指表达盒、报道载体及其各自的一个或多个组分,其开放式包括未指定的元素。
术语“由……组成”是指本文所描述的表达盒、报道载体及其各自的一个或多个组分,其排除了在该实施方式的描述中未列举的任何元素。
术语“标签基因”涉及选自目的基因细胞类型的基因的基因,其特征在于所述目的细胞类型的表达谱。差异调控的标签基因可以例如通过鉴定与参考细胞类型中的表达水平相比被上调或下调的基因来选择,或通过对目的细胞类型的基因表达水平进行排序并且基于基因的阈值水平或预定数量(例如,最高或最低表达的)来选择标签基因。
如本文所用,术语“转录因子”是指结合至特定DNA序列并且由此控制遗传信息从DNA至mRNA的转移(或转录)的蛋白。转录因子的功能主要是调控基因的表达。转录因子可以通过促进(作为激活因子)或阻止(作为阻遏因子)RNA聚合酶募集至特定基因而单独或与其他蛋白在复合物中组合来发挥作用。转录因子包含至少DNA结合结构域,该结构域附接在典型地与它们调控的基因相邻的DNA的特定序列(“结合位点”)上。
术语“显微设备”涉及包括用于细胞的显微分析的工具的设备。显微分析可以通过但不限于以下进行:光学显微镜、双目立体显微镜、明场显微镜、偏光显微镜、相差显微镜、微分干涉相差显微镜、自动显微镜、荧光显微镜、共聚焦显微镜、全内反射荧光显微镜、激光显微镜(激光扫描共聚焦显微镜)、多光子激发显微镜、结构照明显微镜、透射电子显微镜(TEM)、扫描电子显微镜(SEM)、原子力显微镜(AFM)、扫描近场光学显微镜(SNOM)、X-射线显微镜、超声显微镜。显微设备可以额外地包括用于记录细胞图片的照相机和/或检测器,例如以及用于控制显微设备的计算机系统。
由报道基因产生的信号的存在和/或强度可以借助于显微设备确定,但也可以通过可以检测由报道基因生成的信号的其他设备来确定,诸如但不限于流式细胞仪、光度计(luminometer)、光谱仪、测光仪(photometer)或色度计。
如本文所用,术语“拓扑相关结构域”优选是指自相互作用的基因组区,意指拓扑相关结构域内的DNA序列在物理上彼此相互作用比拓扑相关结构域之外的序列更为频繁,从而形成三维染色体结构。拓扑相关结构域的大小范围可以从数千个到数百万个DNA碱基。已知许多蛋白与拓扑相关结构域形成有关,包括蛋白CTCF和蛋白复合体黏连蛋白。在优选的实施方式中,拓扑相关结构域是指两个CTFC或黏连蛋白结合位点之间的基因组序列。
如本文所用,术语“生成细胞类型特异性表达盒”在一些实施方式中涉及在无物理产生相应的核酸分子下设计细胞类型特异性表达盒,例如所述方法可以是计算机实现的方法或可以在所述方法中包括一个或多个计算机实现的步骤。
如本文所用,术语“生成细胞类型特异性表达盒”在一些实施方式中涉及核酸分子的设计和物理产生,优选通过核酸分子的从头合成。
人工基因合成(或从头合成)是生成本发明的盒的优选方法,并且涉及在合成生物学中使用以创建任何给定的核酸序列的方法。在一些基于固相DNA合成的情况下,人工合成与分子克隆和聚合酶链反应(PCR)有所不同,因为用户不必从预先存在的DNA序列开始。因此,有可能制造完全合成的双链DNA分子,而对核苷酸序列或大小没有大的限制。基因合成方法可以基于有机化学和分子生物学技术的组合,并且整个基因可以“从头”合成,而不需要前体模板DNA。该方法已用于生成包含大约一百万个碱基对的功能性细菌染色体。基因合成在重组DNA技术的许多领域中已成为重要工具,包括异源基因表达、疫苗开发、基因治疗、载体构建和各种形式的分子工程。核酸序列的合成通常比典型的克隆和诱变程序更经济。多种技术已被良好建立并且是技术人员已知的。
术语“基因疗法”优选是指将DNA转移至受试者中以治疗疾病。本领域技术人员知道使用基因治疗载体进行基因治疗的策略。优化这样的基因治疗载体以将外源DNA递送至受试者的宿主细胞中。在优选的实施方式中,基因治疗载体可以是病毒载体。病毒具有天然发展的策略以将DNA整合到宿主细胞的基因组中,并且可以因此被有利地使用。优选的病毒基因治疗载体可包括但不限于逆转录病毒载体诸如莫洛尼(moloney)鼠白血病病毒(MMLV)、腺病毒载体、慢病毒、腺病毒相关的病毒(AAV)载体、痘病毒载体、单纯疱疹病毒载体或人免疫缺陷病毒载体(HIV-1)。然而,非病毒载体也可以优选用于基因治疗,诸如由真核启动子驱动的质粒DNA表达载体或者包含与宿主基因组的同源性的质粒DNA序列,以便将表达盒直接整合到目的基因组中的优选位置。DNA转移也可以使用脂质体或相似的细胞外囊泡进行。此外,优选的基因治疗载体还可以指转移DNA的方法,诸如电穿孔或将核酸直接注射至受试者中。本领域技术人员知道如何根据应用的需要选择优选的基因治疗载体以及如何实现核酸构建体诸如本文所描述的表达盒至基因治疗载体中的方法。(P.Seth etal.,2005,N.Koostra et,al.2009.,W.Walther et al.2000,Waehler et al.2007)。
本发明的方法、系统或其他计算机实现的方面可以在一些实施方式中包括和/或采用具有以下的一种或多种常规计算设备:处理器,输入设备诸如键盘或鼠标、存储器诸如硬盘驱动器和易失性或非易失性存储器,以及用于运行本发明的计算机代码(软件)。
该系统可以包括一个或多个预装有所需的计算机代码或软件的常规计算设备,或者它可以包括定制设计的软件和/或硬件。该系统可以包括进行本发明的步骤的多个计算设备。在某些实施方式中,多个客户端诸如台式机、笔记本或平板计算机可以连接至服务器,使得例如多个用户可以在本方法的不同步骤处提供数据或进行计算。计算机系统还可以通过局域网(LAN)连接或经由因特网连接与其他计算机或必要的数据库诸如基因组数据库联网。该系统还可以包括保留通过本发明获得的数据的副本的备份系统。可以经由用于数据传输的任何合适的方式来执行或配置本方法的各种步骤之间必需的数据连接,诸如以有线或无线通过局域网(LAN)连接或经由因特网连接。
客户端或用户计算机可以具有其自己的处理器、输入工具诸如键盘、鼠标或触摸屏以及存储器,或者它可以是不具有其自己的独立处理能力而是依赖于另一计算机诸如与其连接或联网的服务器的计算资源的终端。取决于本发明的特定实施方式,如果出现这样的需求,则客户端系统可以包含必要的计算机代码以承担对系统的控制。在一种实施方式中,客户端系统是平板或笔记本电脑。
尽管可以为每个特定实现定制配置系统,但是用于执行本方法的计算机系统的组件可以是常规的。计算机实现的方法步骤或系统可以在任何特定架构,例如个人/微型计算机、小型计算机或大型机系统上运行。示例性的操作系统包括Apple Mac OS X和iOS、Microsoft Windows和UNIX/Linux;SPARC、POWER和基于Itanium的系统;以及z/Architecture。可以用任何编程语言或基于模型的开发环境编写计算机代码以执行本发明,诸如但不限于C/C++、C#、Objective-C、Java、Basic/VisualBasic、MATLAB、R、Simulink、StateFlow、Lab View或汇编程序。计算机代码可以包括用专属于结合本发明使用的电路板、控制器或其他计算机硬件组件的制造商的专用计算机语言编写的子程序。
通过本方法处理和/或产生的信息,即作为核酸序列、基因表达谱、基因列表和/或特定序列元件诸如TF结合位点的数字表示可以采用行业中使用的任何种类的文件格式。例如,数字表示可以以专用格式、DXF格式、XML格式或本发明使用的其他格式存储。可以利用任何合适的计算机可读介质。计算机可用或计算机可读介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体实例(非详尽列表)将包括以下:具有一根或多根电线的电气连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式小型光盘只读存储器(CD-ROM)、光学存储设备、传输介质诸如支持因特网或内部网的那些、云存储或磁存储设备。
在表1中列出了细胞类型特异性报道载体(即合成基因座区)的基因组亚区的最小集合的优选实施方式的核苷酸序列。
表1:细胞类型特异性报道子的优选合成基因座区的核苷酸序列:
Figure BDA0003046721470000431
Figure BDA0003046721470000441
Figure BDA0003046721470000451
Figure BDA0003046721470000461
在一种实施方式中,本发明因此涵盖包括选自由以下组成的组的核酸分子的载体:
a)包括根据SEQ ID NO 1-6的核苷酸序列或由根据SEQ ID NO 1-6的核苷酸序列组成的核酸分子
b)与根据a)的核苷酸序列互补的核酸分子;
c)包括具有足够的序列同一性以与根据a)或b)的核苷酸序列在功能上类似/等同的核苷酸序列的核酸分子,包括优选与根据a)或b)的核苷酸序列的序列同一性为至少70%、80%,优选90%,更优选95%。
d)根据a)至c)的核苷酸序列的核酸分子,其通过缺失、添加、替换、易位、倒位和/或插入修饰,并且与根据a)至c)的核苷酸序列在功能上类似/等价。
功能上类似的序列优选地是指合成调控区在目的细胞类型中促进可操作偶联的报道基因或效应基因的转录的能力。
在一种实施方式中,本发明涵盖包括选自由以下组成的组的核酸分子的溶瘤病毒治疗的载体:
a)包括根据SEQ ID NO 1-6的核苷酸序列或由根据SEQ ID NO 1-6的核苷酸序列组成的核酸分子
b)与根据a)的核苷酸序列互补的核酸分子;
c)包括具有足够的序列同一性以与根据a)或b)的核苷酸序列在功能上类似/等同的核苷酸序列的核酸分子,包括优选与根据a)或b)的核苷酸序列的序列同一性为至少70%、80%,优选90%,更优选95%。
d)根据a)至c)的核苷酸序列的核酸分子,其通过缺失、添加、替换、易位、倒位和/或插入修饰,并且与根据a)至c)的核苷酸序列在功能上类似/等价。
e)根据本方法生成的核酸分子。
功能上类似的序列优选地是指合成调控区在目的疾病靶细胞中并且不在非疾病细胞中促进病毒必需基因和/或效应基因诸如共刺激分子(例如细胞因子/趋化因子)的转录的能力。
附图
本发明由以下附图进一步描述。这些并非旨在限制本发明的范围,而是表示本发明方面的优选实施方式,以便提供对本文所述的本发明的更好说明。
附图的简要说明
图1:合成基因座控制区(sLCR)的生成和验证
图2:由sLCR揭示的MES-和PN-GIC中的固有和适应性应答。
图3:使用sLCR的GBM亚型化和重编程。
图4:由sLCR揭示的不依赖组织的上皮-间充质内稳态。
图5:由体内sLCR揭示的异质性间充质转分化。
图6:MES GBM-亚型亚型特异性基因的选择。
图7:自动合成基因座控制区(sLCR)生成。
图8:由sLCR揭示的MES-和PN-GIC中的固有和适应性应答。
图9:结合至MGT#1顺式调控DNA的转录因子。
图10:乳腺癌细胞中MGT#1表达的内稳态维持。
图11:MGT#1反映了TGFB和GSK126对EMT的单个和组合贡献。
图12:MGT#1能够筛选由外部信号传导和/或化学扰动驱动的细胞命运转变。
图13:由扩张的sLCR揭示的MES-和PN-GIC中的固有和适应性应答。
图14:由体内扩张的sLCR揭示的异质性间充质转分化。
图15:sLCR有助于发现肿瘤和免疫细胞之间的非细胞自主性串扰(crosstalk)的治疗意义。
图16:合成基因座控制区(sLCR)的延伸表征。
图17:由sLCR揭示的适应性应答的进一步实例。
图18:由GIC中的sLCR测量的MES-GBM状态诱导是特异性的且可逆的。
图19:MES-sLCR以剖析MES-GBM中电离辐射和NFkB信号传导的作用。
图20:支持在表型CRISPR/Cas9正向遗传筛选中使用sLCR的进一步证据。
图21:支持hMG细胞诱导hGIC中MGT#1表达以及对治疗剂和hMG细胞的差异敏感性的进一步证据。
图22:支持在表型CRISPRi筛选中使用sLCR的进一步证据。
附图的详细说明
图1:合成基因座控制区(sLCR)的生成和验证。a)从差异调控的基因(DRG)开始的sLCR生成的示意图。b)在基因组GBM亚型特异性基因座上检测到具有显著性的TFBS基序的两两相关热图。每个图上方指定了分析中TFBS和DRG的数量。c)sLCR以及生成报道的胶质瘤起始细胞(GIC)的实验步骤的示意图。d)左;MGT#1转染的293T或(右)-慢病毒转导的经冰冻切片的MES-hGIC神经球的共聚焦成像。尺度=10μM e)分选H2B-CFP的用sLCR和FACS修饰的MES-hGIC和PN-hGIC的代表性mVenus FACS谱。MES-hGIC表达更高水平的MGT#1(箭头)f)在指定的GIC中对肿瘤坏死因子α(TNFa)治疗的应答的代表性量化。MES-hGIC表达更高水平的MGT#1(箭头)。MES=间充质;PN=原神经;CL=经典。MGT#1-2=MES遗传追踪#1-2。tmd=PDRGFRa跨膜结构域。g)双重IF和smRNA-FISH。示出了合并的通道(左)和单独的通道(右)的图像。黄色的重叠信号和箭头表示MED1和MGT#1驱动的mVenus之间的共定位。h)分选H2B-CFP的用指定的sLCR和FACS转导的MES-hGIC和PN-hGIC的mVenus FACS谱。选通(gating)和箭头示出MES-hGIC比PN-hGIC表达更高水平的MGT#1。
图2:由sLCR揭示的MES-和PN-GIC中的固有和适应性应答。a)TFNa是促成间充质GBM表型的主要信号传导。左,使用指定的细胞因子最长48小时通过适应性应答筛选,TNFa鉴定为最高调控子作为MES-hGIC中两个独立设计的MES-GBM报道子(MGT#1-MGT#2)的激活因子。相对于对照归一化数据。与PN-hGIC相比,MES-hGIC表达更高基础水平的MGT#1。b)在MGT#1诱导中IL-6和小胶质细胞之间的协同。在指定治疗后,MES-hGIC中MGT#1表达的活细胞成像。c)指定条件和抗体的免疫印迹。d-e)差异MGT#1激活告知了对TNFa的差异适应性应答。通过RNA-seq和分层样本聚类测量的MES-hGIC或PN-hGIC中的通过TNFa调控的基因的表达变化。f)在指定的GIC中,响应于肿瘤坏死因子α(TNFa)处理的指定基因的RT-qPCR验证。n=3个生物学独立的样本,ANOVA测试;****P<0.0001;g)由MGT#1表达揭示的TNFa和治疗诱导的间充质定型(commitment)之间的协同性。在指定的刺激后间充质转分化的FACS定量。h)指定条件和抗体的免疫印迹。MES=间充质;PN=原神经;CL=经典。MGT#1-2=MES遗传追踪#1-2。FBS=胎牛血清,CBD=大麻二醇。IRR=电离辐射。
图3:使用sLCR的GBM亚型化和重编程。a)在使用细胞重编程或外部信号传导下使用GBM亚型特异性sLCR确定固有GBM亚型以及增强亚型鉴定的示意图。b)增强常规胶质瘤细胞系中的原神经鉴定。将T98细胞用原神经sLCR或间充质sLCR驱动mCherry作为报道子转导,并且用PN亚型鉴定50的指定的主调控子转染或空转染。T98细胞的代表性显微照片(左)和FACS图(右)示出了T98细胞中PNGT#2(但不是MGT#2)报道子的更高的高固有和TF诱导的表达,尺度=100μM。
图4:由sLCR揭示的不依赖组织的上皮-间充质内稳态。a)MGT#1揭示了乳腺癌细胞中的固有细胞命运差异。左,转导至上皮(上)和间充质(下)乳腺癌细胞中的MES-GBM报道子MGT#1的代表性表达。FACS图示出了MDA-231中报告子比MCF7细胞中的报告子具有更高的高固有表达。注意,报道子表达独立于间充质诱导剂10pM TGFβ2。尺度=100μM。b)MGT#1揭示了对肺癌细胞中化学物质/形态发生的适应性应答。左,在96孔中接种的A549细胞中代表性MGT#1表达,并在指定的时间内增殖。300,000个细胞/板在RPMI培养基中增殖。在0和48小时时补充10pM TGFβ1+2和5μM GSK126。测量荧光,以及右,通过IncuCyte成像系统拍摄的代表性显微照片(右)。误差棒代表独立孔的标准偏差(n=3)。c)CRISPRi和MGT#1揭示了肺癌EMT的机械调控子。描绘筛选的示意图。Dox,多西环素。d)CRISRPi筛选的代表性中间时间点的免疫印迹。在裂解之前拍摄MGT#1-荧光显微照片。e)用于纯化MGT#1高和低群体的FACS分选选通策略。f)示出了MGT#1高MGT#1CRISPRi筛选中gRNA的相对富集的MA图。注意,两个脱落(dropout)的gRNA鉴定了EMT的已知和新型调控子。g)使用两个独立的gRNA进行CRISPR介导的ARID1A和CNKSR2的敲除,并且随后是对MGT#1表达的FACS验证。h)在野生型以及ARID1A和CNKSR2 KO细胞中的EMT标志物的免疫印迹。
图5:由体内sLCR揭示的异质性间充质转分化。a)MES-hGIC的代表性冠状前脑图像;NSG小鼠(n=10)中在人道终点的MGT#1-mVenus微弱异种移植物。左,HE染色;右渐进性插图,显示GFP、微管蛋白和DAPI复染色组织的放大。注意,侵袭性胶质瘤前端是同质地MGT#1-mVenus。b)代表性的混合MGT#1-mVenus/MGT#1-mVenus阴性病变。c-d)分别在MGT#1阳性和阴性病变中的代表性H2B-CFP表达(箭头)。e)代表性的流式细胞术图,显示了MES-hGIC中的CD133和MGT#1-mVenus表达;在NSG小鼠或体外的MGT#1-mVenus微弱异种移植物(左)。各个组件示出在右侧。注意proprole从体外转移至体内。f)a-e中显示的数据的示意图。
图6:MES GBM-亚型亚型特异性基因的选择。a)热图,表示从TCGA排序的微阵列的显著性分析(SAM)列表中选择的基因的倍数变化,用于所指定的两两比较。下方,颜色代码指示了与元数据相关的GBM亚型表达谱。b)热图,表示所选基因的表达水平,说明了它们在原发活检和衍生自它们的胶质瘤干样细胞(GSC)中的表达和倍数变化。下方,颜色代码指示了与元数据相关的GBM亚型表达谱。所有基因具有绝对CPM>4,并且大多数基因在GSC内示出倍数变化,表明它们的表达也以细胞自主方式起作用。将Spearman排序相关性用于样本,并且将Pearson相关性用于基因。
图7:自动合成基因座控制区(sLCR)的生成。a)左上(I),与特定基因标签相关的顺式调控元件(CRE)的鉴定的示意图;右上(II),CRE对基因组位置的注释;下方(III),基于TFBS多样性和得分[Σ-log10(p值)+num TFBS)]的150bp CRE的迭代选择。sLCR生成涉及从最接近天然TSS至最远的远端CRE的n个CRE的组装,最高达>50%的TFBS多样性(本实施例中为MES-GBM)。b)基于TFBS得分/多样性的单个sLCR的Spearman相关性。(A)注释由自动算法生成的sLCR。
图8:由sLCR揭示的MES-和PN-GIC中的固有和适应性应答。来自图2a的GIC中MGT#1表达的代表性活细胞成像。
图9:结合至MGT#1顺式调控DNA的转录因子。a)上方,MGT#1sLCR的示意图。下方,可以在使用的任何细胞系中在ENCODE公共数据库中观察到ChIP-seq信号的TF的列表。
图10:乳腺癌细胞中MGT#1表达的内稳态维持。a)被测试的两种hyphotes的示意图:MGT#1静态反映细胞状态或MGT#1动态反映细胞内稳态,并且在扰动后重新建立体外内稳态调控(即MGT#1微弱群体的FACS纯化)。绿色虚线圆圈突显了图4a中的结果,其中MCF7和MDA-231由于其细胞标识而分别示出具有固有的低或高MGT#1表达。b)基于最佳可比较的MGT#1强度对MCF7和MDA231进行FACS分选,并且在4a中示出的FACS分析之前在体外增殖。
图11:MGT#1反映了TGFB和GSK126对EMT的单一和组合贡献。a)在暴露于指定处理下5天的A549细胞中MGT#1表达的FACS谱。每个样本需要最少10,000个细胞。b)在暴露于指定处理下5天的A549细胞中细胞形态和MGT#1表达的FACS谱。注意细胞形状中的TGFB依赖性变化以及在TGFB1+2和GSK126之间的协同性。
图12:MGT#1能够筛选由外部信号传导和/或化学扰动驱动的细胞命运转变。示出的是从筛选获得的数据的主成分分析(PCA)。PC1和PC2这两种成分说明了实验中最大的变化。为了生成数据,在初始上皮A549-MGT#1和GSK126处理的细胞的程序结束时,增殖A549-MGT#1细胞并且拍摄细胞图像。注意间充质转变与先前发表的数据一致。对来自增殖的A549-MGT#1细胞的归一化荧光数据进行分层聚类,并且使用SPARM 20M TECAN读板器扫描底部读数的荧光。使用Pearson相关性聚类。颜色代码指示荧光强度倍数变化(蓝色-白色-红色)和生物学复制品(黄色/橙色=媒介物,绿色=GSK126)。进行了活细胞成像,示出在GSK126处理的和对照A549-MGT#1细胞中对LPS的响应。
图13:由sLCR揭示的MES-和PN-GIC中的固有和适应性应答。a)使用sLCR的表型筛选的示意图(上)和结果的气泡图可视化(下)。对于每个GIC和sLCR,气泡大小示出每种处理相对于对照的变化的幅度(log2倍变化),气泡颜色指示变化的迹象(红色或橙色表示富集,浅蓝色表示缺失)。b)表型筛选的FACS验证。CD133和PNGT#2的表面表达是细胞标识的内源性标志物。注意到相比于PN-hGIC更高的MES-hGIC MGT#1表达。c)在指定的刺激下间充质转分化的代表性FACS定量。d)MGT#1激活的功能剥离的实验设计。e)来自d中筛选的与药物相关的sgRNA的火山图(红色,正调控子;蓝色,负调控子;灰色,不显著)。相对于所有MGT#1部分和未分选的对照(n=6),计算了所有MGT#1部分(n=3,初始、TMZ+IR、TNFa+FBS的平均值)的倍数变化。Padj由DeSeq2计算(参见方法)。突显了选定的sgRNA-化合物对。f)在用指定的处理和TNFα顺序处理下指定基因的RT-qPCR。将Padj指定用于代表性比较,并且表示整体双向ANOVA和Dunnett的多次比较的结果。MES=间充质;PN=原神经;MGT#1-2=MES遗传追踪#1-2。FBS=胎牛血清,TNFa=肿瘤坏死因子-α。IR=电离辐射。TMZ=替莫唑胺。
图14:由体内sLCR揭示的异质性间充质转分化。a)指定条件的ATAC-seq谱的散点图,在5e)中由黄色和蓝色框表示。突显了在TNF受体超家族(TNFRS)基因座的开放染色质。b)FADD/TNFRS6基因座的UCSC基因组浏览器视图。体外和体内MGT#1细胞之间的可及性的变化由箭头和颜色(红色-高,灰色-中)表示。c)泛癌(PanCancer)数据集和指定条件的ATAC-seq谱分析的无监督t-SNE。当可以获得时,每个点表示给定的样本或所有技术复制品的合并。该分析包括所有样本中250,000个变化最大的峰的最高主成分。灰点是所有TCGA癌症类型,但GBM/LGG与来自(Park et al.,2017,Cell Stem Cell 21,209–224August 3,2017)的胶质瘤干细胞以及来自该研究的GIC一起着色。圆圈表示由主要GBM/LGG和GIC/GSC占据的尺寸。d)ATAC-seq谱分析的无监督t-SNE限于胶质瘤尺寸内的样本。
图15:sLCR有助于发现肿瘤和免疫细胞之间的非细胞自主性串扰的治疗意义。a)代表性的MES-hGIC的明场视野和IF,具有指定的报道子以球状体或具有永生化的人小胶质细胞(hMG)的类器官增殖(分别为上图和下图)。比例尺=50um。b)无接触hGIC-hMG共培养的示意图。左,共培养中的hGIC和MG的明场图像。c)单独的或用TNFa或hMG共培养刺激的MES-hGIC-MGT#1的代表性FACS谱和选通策略。下方是针对指定条件的通过DRG的独创通路分析(Ingenuity Pathway Analysis)的NFkB相关基因的维恩图(Venn diagram)。与对照GIC相比,DRG被富集(FC>1,padj<0.05)。d)与患者的那些重叠的hMG驱动的MES GBM标签的维恩图。注意与其他相比,与Neftel et al.的重叠更高。e)指定条件的DRG的热图。将RNA-seq读段归一化为每百万的转录物,Log2转换并且Z得分。通过使用R-包LIMMA评估统计学显著性(对照,n=3,hMG,n=3;TNFαn=2;padj<0.05)。f)所指定的比较的MA图。突显并用颜色编码显著的DRG。g)与MES-hGICs-MGT#1中的TNFa相比,通过hMG共培养上调控的基因的独创性上游调控子分析。h)左,sLCR高和低状态的化学敏感性谱分析测定的示意图。右,针对响应于指定药物的增加的浓度的FACS分选的MES-hGICs-MGT#1和-MGT#1部分生存力计算的logIC50值。
图16:合成基因座控制区(sLCR)的延伸表征。MGT#1-和PGK-驱动的基因表达的单分子RNA FISH定量。箭头/黄色表示胞质共定位。
图17:由sLCR揭示的适应性应答的进一步实例。指定刺激下的代表性MGT#1激活。
图18:由GIC中的sLCR测量的MES-GBM状态诱导是特异性的且可逆的。a-b)条形图,示出了诱导48小时后对指定的因子/sLCRR的个体响应。c-d)线形图,示出了指定的因子/sLCR的纵向表达。
图19:MES-sLCR以剖析MES-GBM中电离辐射和NFkB信号传导的作用。a)右,IR和MGT#1激活之间的剂量响应。左侧示出了实验设置的实例。b)在指定的刺激下间充质转分化的代表性FACS定量。
图20:支持在表型CRISPR/Cas9正向遗传筛选中使用sLCR的进一步证据。a)从全基因组CRISPR筛选中,在对MGT#1和MGT#1进行分选用于gRNA扩增之前指定条件的FACS图。b)箱形图,示出了数据质量评估,通过比较在未分选的筛选条件下的高度信息化必需和所有非必需或非靶向gRNA的分布(P值=学生的t检验)。c)在Brunello文库和未分选的MES-hGICs+Brunello条件之间的对于指定的gRNA集合的sgRNA倍数变化值分布(参见“方法”)。d)sgRNA丰度(X轴)和倍数变化(Y轴)的代表性MA图。将携带Brunello文库的初始MES-hGIC在MGT#1和MGT#1中FACS分选,并且将gRNA相对于最大数据集归一化并且Log2转换(参见方法)。与MGT#1部分相比,所指示的gRNA缺失。e)来自CRISPR/Cas9 KO筛选的所有命中的独创通路分析(IPA)前25种毒性类别(FC±1.5;padj<0.05)。只有“正调控子”超出了统计界限。粗体为与视黄酸受体信号传导相关的类别。来自CRISPR/Cas9 KO筛选的所有命中的IPA上游调控子分析(FC±1.5;padj<0.05)。MES-GBM表型的正调控子和负调控子分别以水蓝色和红色着色。灰色表示没有方向性富集的显著类别。f)来自e中筛选的最高调控的sgRNA的火山图。相对于所有MGT#1部分和未分选的对照(n=6)计算所有MGT#1部分(n=3,初始,平均的TMZ+IR,TNFa+FBS)的倍数变化。通过DESeq2计算Padj,并且突显选定的sgRNA-FDA批准的化合物对(参见“方法”)。
图21:支持hMG细胞诱导hGIC中MGT#1表达以及对治疗剂和hMG细胞的差异敏感性的进一步证据。a)图4中共培养实验的延伸的示意图;对于详细的培养基组成,参见“方法”。b)单独或与人小胶质细胞(hMG)或人CD34+衍生的髓系来源的抑制细胞(MDSC)共培养的MES-或PN-hGICs-MGT#1的FACS谱。c)所指示的RNA-seq谱的主成分分析。基于从Gosselinet al 2017获得的选定的人MG标志物的平均表达水平来计算距离。d)响应于指定药物浓度增加的FACS分选的MES-hGICs-MGT#1高和-MGT#1低部分生存力。e)指定基因列表的散点图和基因集合富集分析(GSEA),示出hMG细胞诱导MES-GBM并且抑制DNA损伤转录标签基因。
图22:支持在表型CRISPRi筛选中使用sLCR的进一步证据。a)激酶组筛选中所有样本的累计曲线分布(n=42),包括技术复制品和生物学条件:质粒文库、A549-H1944输入、A549-H1944+GSK126高、中、低-对照-A549-H1944+GSK126+dox高、中、低和A549-H1944+dox高、中、低–分别用于GSK126驱动的EMT和内稳态EMT的筛选。将所有gRNA(n=6615)通过每百万读段的总计数归一化,通过百分位归一化(75百分位)对数转换,并通过转化为z得分进行转换。b-c)图3c-f中的筛选中所有gRNA(n=6615)的散点图以及分别对于非必需sgRNA(n=483)和必需基因(n=352)的GSEA。通过t检验以及柯尔莫哥罗夫-斯米尔诺夫检验(Kolmogorov-Smirnov),FC<-1和padj<0.001,必需基因的缺失是显著的。d-e)合并的A549+H1944+GSK126+dox筛选中所有gRNA(n=6615)的散点图以及分别对于非必需sgRNA(n=483)和必需基因(n=352)的GSEA。通过t检验以及柯尔莫哥罗夫-斯米尔诺夫检验,FC<-0.5和padj<0.001,必需基因的缺失是显著的。
实施例
本发明由以下实施例进一步描述。这些并非旨在限制本发明的范围,而是表示为更好地说明本文所描述的发明而提供的优选实施方式。实施例示出,本文所描述的方法和报道载体允许报道基因和效应基因在各种目的细胞类型中的细胞类型特异性表达。
实施例中使用的材料和方法:
sLCR生成和TFBS发现:使用具有--输出-门限值(pthresh)1e-4--否-q值(qvalue)的FIMO(PMID:21330290)来鉴定定义的基因组区(DRG基因座;表X)中的高亲和性TF结合位点。从文献(Portales-Casamar et al.,2010;Badis et al.,2009;Berger et al.,2008;Bucher,1990;Jolma et al.,2010)中,生成了代表已知转录因子结合偏好(位置权重矩阵,PWM)的1,818个模型的数据库。PWM是基于亚型特异性TF预选择的。从UCSC基因组浏览器(hg19;2012年10月5日下载的Refseq表)检索与DRG相对应的区,并且以150bp的窗口和50bp步长(以下称为顺式单位)扫描。每个标签基因周围的扫描区域由距TSS或TES>10kb的两个远端CTCF位点界定。使用FIMO将亚型特异性PWM映射到基因组区。PWM最好显著过表达的区(adj.p值<0.01;多个背景)。对于每个窗口,只要鉴定出同一PWM的多个匹配,就将最佳匹配的p值视为该TF在该区上的亲和性的代表。给定一个区,基于所考虑的每个PWM的最佳-log10(p-值)之和来计算总体得分。通过比较基序/背景(经验p值<0.01)确定显著过表达的区(多个背景)。图1a中的TFBS两两相关热图使用根据上面定义的得分的前500个区。基因组座标与TFBS相关性热图,包括图1a中的代表图,是在得分最高的前100个区生成的。
sLCR生成的自动化:为了专注于细胞固有基因标签,在先导方法中,我们从我们先前的实验中滤出了在GBM干样细胞(GSC)中低表达的基因,而本方法的当前实施涉及着重于经过验证的胶质瘤固有标签20。基于PWM得分和多样性手动选择得分最高的顺式单位,从而设计第一sLCR。同样,手动进行包含TSS的区的选择。自动的sLCR生成是以python(URLGitHub/GitLab)编写的。脚本将TF、PWM和表型基因标签的列表作为输入。有了这些,就可以从定义的顺式调控区生成顺式单位(默认参数:150bp窗口/50bp步长)。通过使用基于定义的选择规则的算法,生成对于任何给定的表型最佳的顺式单元的选择。该算法首先通过应用以下公式生成排序和最佳顺式单元的选择:[总和的得分-log10(p值)*多样性(不同TFBS的数量)]。迭代地,它会移除所选顺式单元中包括的TFBS。为了增加成功转录触发的机会,该算法还基于5'CAGE数据将顺式单元排序。排序的列表是算法的输出。自动化程序返回与手动选择重叠的结果(图7)。图1a-b中的热图是使用来自gplots R包的热图.2函数生成的。
RNA-seq生成:使用Trizol(Invitrogen)提取RNA,使用异丙醇沉淀,并且使用RNAClean XP珠纯化。使用TruSeq链式总RNA文库制备试剂盒构建了用于本研究生成的RNA-seq文库。将基于珠的方法用于rRNA缺失(Ribo-Zero Gold;Illumina),并且按照制造商的方案进行PCR扩增。在Bioanalyzer或TapeStation上分析最终的文库,并在具有单读段51bp或成对末端100碱基方案的Illumina HiSeq2500或HiSeq4000平台上对条形码文库汇集和测序。用Cutadapt使用来自原始读段修剪Illumina衔接子,并且用TopHat将原始读段与人基因组(Hg19或Hg38)比对。将HTSeq用于评估每个基因的独特分配读段的数量;然后将表达值相对于107个总读段归一化,并且log2转换以获得每百万计数(CPM)。
分析:对于图2d中的热图,我们使用Seqmonk v1.42。简而言之,将BAM文件使用HISAT2与Hg38比对,并且用RNA-Seq管道(pipeline)定量转录物定量在转录物计数读段上在外显子上校正特征长度。图形表示使用定量、对数转换和比对假定反向链特异性文库,随后是百分位数归一化补充有匹配分布。
在图15e中,使用SeqMonk分析数据,并且通过标准分析管道归一化读段,采用DNA污染校正(contamination correction)并生成原始计数以进行DESeq2差异分析。使用具有对数转换的相同管道用于可视化。使用标准SeqMonk设置确定显著性:在Benjamimi和Hochberg校正后,采用独立强度过滤,p<0.05。如上进行定量。使用IPA确定MG与GIC以及TNFa与GIC中的NFKB相关基因,通过各自的出版物获得MES GBM标签,并使用Venny生成图。对于MES-GBM FC>0.5倍与padj=0,对于PN FC<-0.4,padj=0以及对于SREBP FC>1倍与padj=0确定GSEA显著性。图15e相互作用图是使用来自IPA的功能Ingenuity上游调控子生成的,用于比较MGT#1高TNFa与MGT#1高C20MG共培养。
ATAC-seq:对来自体内实验的20-50,000个细胞以及在体外实验中的50-100,000个细胞进行FACS分选的群体上的ATAC-seq。将细胞在PBS中离心,并且将沉淀轻轻重悬于50μl的主混合物中(25μL 2×TD缓冲液、2.5μL转座酶和22.5μL无核酸酶的水、Nextera DNA文库制备、Illumina),在37℃适度振荡下孵育60min(500-800rpm)。用5ul蛋白酶K和50ul的AL缓冲液(Quiagen)终止转座,在56℃下孵育10min,并使用1.8x vol/vol AMPure XP珠纯化DNA,并在18ul中洗脱。每个各自样本的文库扩增的PCR循环的最佳数量使用2ul的模板,随后使用热激活的Kappa Hifi聚合酶和EvaGreen 1x进行qPCR扩增来确定。在50ul qPCR体积和8-12ul的模板DNA中进行最终扩增。引物为先前描述的(Buenrostro et al.201)。使用Qubit(Life Technologies)对文库单独定量,并使用高灵敏度D1000 ScreenTapes在TapeStation(Agilent)上确定适当的阶梯分布。使用V2化学试剂在Illumina NextSeq 500上进行150个循环的测序(配对末端75nt)。使用SeqMonk进行图14a中的ATAC-seq散布分析,通过使用TSS±5kb作为探针,对ENSEMBL mRNA进行最终注释。使用读段计数定量归一化,并且对仅在每百万读段的探针中的总计数进行读段校正,对数转换snf通过大小因子归一化进一步转换。
ATAC-seq分析使用trim-galore v0.6.2--nextera对读段移除了衔接子,然后使用bowtie2 v2.3.5(参考)默认参数进行映射。使用SeqMonk进行ATAC-seq分析,通过使用TSS±5kb作为探针对ENSEMBL mRNA进行最终注释(2019assembly)。使用读段技术定量功能归一化计数,并且对于仅每百万个读段的探针中的总计数进行读段校正,对数转换并且通过大小因子归一化进一步转换。根据建立的方案生成图14c的sLCR ATAC-seq和TCGA ATAC-seq的集成。
载体生成:sLCR最初在IDT合成,以及后来在GenScript合成。将MGT#1-mVenus克隆至哺乳动物表达,慢病毒FUGW的PacI-BsrGI片段中(来自David Baltimore的赠予;Addgene#14883)。额外的修饰,诸如将mVenus换成mCherry,或者MGT#1具有使用限制酶消化或Gibson克隆的所有其他sLCR。sLCR载体是第3代慢病毒系统,并且已与pCMV-G(Addgene#8454)、pRSV-REV(Addgene#12253)和pMDLG/pRRE(Addgene#12251)一起使用。 从CCSB-Broad慢病毒表达文库获得Sall2(ccsbBroad304_11117)Pou3f2(ccsbBroad304_14774)。
细胞系:MES-hGIC和PN-hGIC由我们的实验室生成,并且将在其他地方描述。简而言之,PN-hGIC是通过转化人NPC生成的,借助于pLenti6.2/V5-IDH1-R132H、TP53R173H和TP53R273H(从CCSB-Broad慢病毒表达文库引入至TP53 ccsbBroad304_07088的点突变,以及pRS-Puro-sh-PTEN(#1)。通过转化人NPC pRSPURO-sh-PTEN(#1)、pLKO.1-sh-TP53(TRCN0000003754)和pRS-shNF1生成MES-hGIC。对于这些品系,已经进行了全面的遗传、转录和表观遗传表征,以及体内肿瘤形成和表型模拟能力。在体外,如描述的76用一种修饰增殖GIC。除了使用EGF(20ng/ml;R&D)、bFGF(20ng/ml;R&D)、肝素(1μg/ml;Sigma)和5%青霉素和链霉素外,还将PDGF-AA(20ng/ml;R&D)补充至RHB-A(Takara)中。此培养基组成将被称为RHB-A完全。hGIC在37℃下在5%CO2、3%O2和95%湿度培养箱中培养。
将T98G和U87MG(由NKI的van Tellingen实验室友情提供)在EMEM培养基中增殖。对于图13a中的实验,将T98G替换为补充有EGF(20ng ml-1)、bFGF(20ng ml-1)、肝素(1μg ml-1)和5%青霉素和链霉素的RHB-A,并且首先在经过标准组织培养处理的塑料上增殖,然后在超低结合塑料(CORNING)上增殖。
将MCF7、MDA-231、A549和H1944细胞系(由NKI的Rene Bernards实验室友情提供)培养在RPMI培养基中。在37℃下在5%CO2–95%空气培养箱中,所有细胞系均补充有10%FBS和5%青霉素和链霉素。
在补充有1%FBS、2.5mM谷氨酰胺(Thermofisher;35050038)、1μM地塞米松(Sigma;D1756)和1%青霉素和链霉素的RHB-A培养基(Takara)中于37℃下在5%CO2、19%O2和95%湿度培养箱中培养永生化原代人小胶质细胞C20。
在SFEM II(StemCell)、SCF、FLT3-L、TPO、IL6(全部100ng/ml;easyexperiments.com)、UM171(Selleck,0.035μM)、SR1(Selleck,0.75μM)、19-脱氧-9-亚甲基-16,16-二甲基PGE2(Cayman,10μM)中增殖供体来源的CD34细胞。
全基因组CRISPR敲除体外筛选:对于全基因组汇集的CRISPR敲除筛选,我们利用由靶向19,114个基因(每个基因平均4个sgRNA)的77441个sgRNA和1000个非靶向对照组成的Brunello文库。为了获得超过100x的文库表示,我们以~0.5的MOI转导了总计16x106MES-hGICs-MGT#1细胞,并在引入处理之前将细胞扩增10天。在第10天,将细胞用TNFa(10ng/ml)和FBS(0.5%);替莫唑胺(50μM)和辐照(20Gy)处理或不进行处理。在gDNA提取之前,我们对每种条件进行了FAC分选,收集MES-hGICs-MGT#1、MES-hGICs-MGT#1和未分选的群体。通过在56℃下在补充有蛋白酶K(Invitrogen)和RNAse A(Thermo Scientific)的AL缓冲液(Qiagen)中裂解细胞沉淀10’,随后用AMPure珠纯化并在EB缓冲液(Qiagen)中洗脱,从而提取基因组DNA。NGS文库是在两步PCR设置中构建的,其中,PCR1用于扩增sgRNA支架并插入交错序列以增加整个流通池中的文库复杂性,而PCR2引入了具有独特P7条形码的Illumina兼容衔接子,从而允许样本多重性。对于PCR1,将5μg的每个gDNA样本分成5个平行反应,随后汇集在一起,并使用AMPure珠纯化。通过使用KAPA HiFi HotStart Ready Mix(Roche)和1x EvaGreen(Biotium)进行qPCR扩增,单独确定对于1μl的每个PCR1的PCR2的最佳循环数。将10μl的每个样本的纯化的PCR1用作最终PCR2的输入。PCR1和PCR2两者均使用KAPA HiFi HotStart Ready Mix进行。可根据需求提供引物。使用用于定量的Qubit dsDNAHS试剂盒(Invitrogen)和用于确定PCR片段大小的TapeStation高灵敏度D1000ScreenTapes(Agilent)进行最终文库的定量控制。将条形码文库以等摩尔汇集在一起,并且使用75个循环V2化学(1x 75nt单读取模式)在Illumina NextSeq500上测序。
穿透小室(Transwell)共培养:使用具有0.4μm孔径的亲水性PTFE 6孔细胞培养插入物(Merck)建立hGIC和永生化原代人小胶质细胞C20的共培养。将人小胶质细胞以1.5x105细胞/孔接种在各自培养基中的6孔板上24h。吸出培养基,并且用PBS洗涤细胞一次,然后加入1ml的RHB-A完全培养基。将穿透小室插入物置于板中,并且将在总体积为1ml的RHB-A完全培养基中的5x105单hGIC铺板在插入物表面上。共培养48h后,收集hGIC和C20人小胶质细胞,用于进一步分析。
转染-转导:先前详细描述了转染和转导。简而言之,将12μg的DNA混合物(慢病毒载体、pCMV-G、pRSV-REV、pMDLG/pRRE)与FuGENE-DMEM/F12混合物在室温下孵育15min,加入到覆盖293T细胞的无抗生素培养基中,并且在转染后40h收集第一层(first-tap)病毒上清液。根据制造商的说明,使用Lenti-X p24快速滴定试剂盒(Takara)评估效价。我们在补充有2.5μg/ml硫酸鱼精蛋白的适当的完全培养基中将病毒颗粒应用于靶细胞。在与病毒上清液一起孵育12-14h后,用适当的完全培养基更新培养基。
冷冻切片的制备:通过重力使肿瘤球体沉降,固定在新鲜制备的甲醛于PBS(1.0%)中,其用140mM甘氨酸2M阻断。
用30%蔗糖冲洗,随后加入冷冻培养基(O.C.T/冷冻模具(cryomold))。通过干冰冷冻获得冷冻块,并在-80℃下保存直至使用。用Leica CM 1950切割块。
免疫组织化学:将组织或肿瘤球体固定在4%PFA中20’。固定后,用从70%增加至100%的EtOH、二甲苯和过夜石蜡孵育进行脱水。使用HM 355S切片机(Thermo Scientific)切割石蜡包埋的样本(PES)。进行苏木精/伊红(HE)标准染色,并且用自动显微镜(Keyence)获得载玻片图像。
免疫荧光:在室温下,细胞生长在盖玻片上或球状体旋转下来到玻璃上,随后是4%多聚甲醛(PFA,16005-Sigma Aldrich)于PBS中固定10min,在PBS中洗涤5min(3x),用0.5%triton X100于PBS中透化5min,用4%BSA(3854.4ROTH)阻断15min,用初级和二级抗体和20μm/ml的Hoechst 33258(16756-50,Cayman)染色,并且使用甲油和Vectashield(H1000-Linaris)固定到玻璃载玻片上。在石蜡包埋的组织上,我们用标准方案进行了去石蜡化和柠檬酸抗原修复。用Triton 0,25%于PBS中进行透化,并且——当适当的情况下——用3%H2O2于水中阻断内源性过氧化物酶。通常,我们用5%正常山羊血清(NGS)进行阻断。初级抗体为:抗-GFP(抗-GFP ab6556,1:000)、抗-MED1(Abcam ab64965 1:500)、抗-Tubulin(BD T5168,1:2000),以及二级抗体为:A31573、A11055和A31571 Alexa Fluor647、A21206 Alexa Fluor 488、A31570 Alexa Fluor 555。
RNA FISH和双重FISH-IF:将细胞在70%乙醇(仅RNA FISH)中或用0.5%tritonX-100(对于双重IF-RNA FISH)透化,在无RNase的PBS(1x(Life Technologies,AM9932)中洗涤,在室温下用10%去离子甲酰胺(EMD Millipore,S4117)于20%Stellaris RNA FISH洗涤缓冲液A(Biosearch Technologies,Inc.,SMF-WA1-60)和无RNase的PBS中固定5min。使用以31.5μM在100μL中的SMF-1084-5CAL
Figure BDA0003046721470000661
Red 635和SMF-1063-5
Figure BDA0003046721470000662
570定制
Figure BDA0003046721470000663
FISH探针(根据需求可提供寡核苷酸序列)于10%去离子甲酰胺90%Stellaris RNA FISH杂交缓冲液(Biosearch Technologies,SMF-HB1-10)中的溶液转移至盖玻片上,在37℃下在暗处杂交,来探测IgK-MGT#1-mVenus和H2B-CFP。在O/N孵育后,将载玻片用无RNase的PBS洗涤5min(3x)。如果发生了初级/二级染色,则如上所述。
成像:使用的显微镜为Zeiss LSM800,Leica SP5-7-8,Nikon Spinning Disk。用Leica SP5获得图S41中的共聚焦图像。使用Ex=488nm、Em=535nm获得mVenus荧光,以及对于图1d中的,使用Zeiss LSM800获得,对于mVenus-QUASAR570使用Ex=558nm、Em=575nm,对于BRD4-或MED1-AF647,分别使用Ex=653、Em=668。对于H2B-CFP-QUASAR670,我们使用Ex=631、Em=670。使用ImageJ或Photoshop处理图像。
表型筛选:如上所述增殖肿瘤细胞直至筛选。然后,我们在补充有适当生长因子的Gibco FluoroBrite DMEM培养基中,在384孔板(Corning)中以15'000/50μl/孔接种。使用SPARK20M注射器系统(50μl注射体积;100μl/s注射速度)将细胞以50μl悬浮液分配至每个孔中。对于非贴壁细胞(例如GIC),将细胞在37℃下进一步以1500rpm离心1h 30min。使用SPARM 20M TECAN读板器在37℃下在5%CO2-95%空气(对于GIC为3%)中在加湿的盒中扫描底部读数荧光,对于mVenus具有以下设置:单色仪,Ex505nm±20nm、Em 535nm±7.5nm,手动增益:198,闪烁:35,积分时间:40μs。在独立的复制子中,用在FluoroBrite培养基中的0.02%AlamarBlue溶液测量细胞生存力,使用以下设置:荧光最高读数。单色仪,Ex 565nm±10nm、Em 592nm±10nm,手动增益:88,闪烁:30,积分时间:40μs。
使用D300e自动等分DMSO可溶性化合物诸如GSK126,而使用Andrew移液机器人(AndrewAlliance)将细胞因子自动等分至每个孔中,使用以下浓度:
细胞因子 产品代码 储备液 工作浓度
IL6 206-IL;R&D系统 100μg/ml 15ng/ml
LPS ALX-581;Enzo 200x 1x
TNFα 210-TA;R&D系统 100μg/ml 20ng/ml
TGFb 240-B;R&D系统 35μg/ml 5ng/ml
IFNg 285-IF;R&D系统 100μg/ml 10ng/ml
生腱蛋白C MBS230239;Mybiosource 100μg/ml 100ng/ml
HGF 294-HG;R&D系统 10μg/ml 10ng/ml
IGF 50356.100;Biomol 2μg/ml 2ng/ml
FBS 10270106;Gibco 100% 10%
GSK126 5mM 5μM
CBD 10mM 4μM
激活素A BV-P1078;Enzo 50μg/ml 50ng/ml
NRG1 97642.10;Biomol 16μg/ml 90ng/ml
IL1b CYT-094;Biotrend 100μg/ml 10ng/ml
将数据输入PRISM7(GraphPad)中。从所有值中将来自对照死细胞的荧光强度作为背景减去。将各个值相对于对照的平均值归一化,并表示为倍数变化。
药物剂量响应筛选:将来自穿透小室共培养实验的转导的hGIC收获至单细胞悬浮液中,并使用BD FACSAria III分选成mVenus高和低群体。计数细胞,并使用SPARK20M注射器系统(50μl注射体积;100μl/s注射速度)将7000细胞/50μl/孔接种到384孔黑壁板上于RHB-A完全培养基中。通常将药物溶解为10mM储备液于DMSO中,并且使用D300e复合打印机(TECAN)进行分配,用于具有平板随机化和DMSO归一化的靶向剂量响应。孵育72h后,在用10μl的Cell-Titer-Blu(Promega)测定试剂孵育2-6h后用以下设置测量细胞生存力:荧光最高读数。单色仪,Ex565nm±10nm、Em 592nm±10nm,增益设置:最优扫描,闪烁:30,积分时间:40μs。将数据输入PRISM7(GraphPad)中。从所有值中将来自空孔的荧光强度作为背景减去。将浓度log10转换为log[M]标度,并将各个值相对于未处理的阳性和SDS处理的阴性对照条件的平均值归一化。使用非线性回归模型(log(抑制剂)与归一化响应-可变斜率)得出剂量响应曲线和IC50值。
Figure BDA0003046721470000691
hGIC的辐照:使用配备有用于靶向辐照的225kV X射线管的XenX辐照器平台(XStrahl Life Sciences)传送辐照。将在6孔板或96孔板中培养的hGIC置于光束线的焦平面中,并如用内部计算软件计算的根据靶剂量暴露于辐射特定的时间。
基质胶(Matrigel)类器官的生成:为了用C20人小胶质细胞和hGIC的共培养生成类器官,使用生长因子减少的并且无酚红的基质胶(BD;734-1101)液滴作为细胞外基质承载体。收获靶细胞,并且制备具有1.5x105的C20人小胶质细胞和3.5x105的hGIC在500μl的体积中的单细胞悬液。使用预冷的消耗品和移液器吸头,将30μl的基质胶在冰上融化,添加至冷的60孔Minitray(Thermofisher;439225)的每个孔中。使用5μl制备的细胞悬液以每液滴5000细胞注射至每个类器官中,并通过移液混合。将液滴在37℃下,在5%CO2、3%O2和95%湿度培养箱中培养最长达14天,并且每2-3天更换RHB-A完全培养基。在第10天使用Leica SP8共聚焦显微镜进行活细胞成像。
RT-qPCR:使用20μL中的SuperScriptTMVILOTMMasterMix RNA(0.5-2.5μg)在25℃下孵育10',在42℃下孵育60'和在85℃下孵育5',生成cDNA。以10ul/孔,在使用1x PowerUpSYBR Green Master Mix(Applied Biosystems)的384w ViiATM 7系统中,用10ng cDNA/孔进行RT-qPCR。可根据需求提供引物。
组织剥离和细胞表面染色:先前详细描述了脑肿瘤剥离77。简要地,将组织用解剖刀剥离,在37℃下在Accutase/DNaseI(947μl Accutase、50μl DNase I缓冲液、3μl DNaseI)中消化直至需要。先通过120μm细胞过滤器,再通过40μm细胞过滤器过滤,然后RBC裂解(NH4Cl,155mM;KHCO3,10mM;EDTA,pH 7.4,0.1mM)。在冷PBS中洗涤后,使用TECAN SPARK20M用0.4%锥虫蓝染色自动评估生存力和细胞计数。
当评估表面标志物时,通常在15ml Falcons中使用200.000个细胞/抗体。染色体积为50μl在具有初级抗体(例如CD133-APC;Miltenyi)的RHB-A培养基中,在冰上在黑暗中30’。用两次PBS洗涤去除未结合的抗体。根据是否分析或分选细胞,在BD LSRFortessa上进行数据采集,或者使用BD Aria II或Astrios Moflo分选细胞。根据所分析的荧光团选择合适的激光滤光片组合。通常,为了去除死细胞,首先根据形状和粒度(FSC-SSC)对事件选通,并且我们将AnnexinV或活/死可固定的水性死细胞染色试剂盒(LIVE/DEAD Fixable AquaDead Cell Stain Kit)用作生存力染料(取决于所分析的荧光团)。用FlowJo_V10进行分析。
FACS分析:用FlowJo_V10进行分析。
FACS分选:将转导的hGIC收获到单细胞悬液中,并重悬至冷的RHB-A完全中,并过滤至FACS管中。使用BD FACSAria III或Fusion进行分选。根据要分选的荧光团选择合适的激光滤光片组合。通常,为了去除死细胞,首先根据形状和粒度(FSC-A与SSC-A)对事件选通,并排除二重态(FSC-A与FSC-H)。在PGK驱动并结构性表达的H2B-CFP作为分选报道子上建立正向选通,以对具有低至中强度的sLCR依赖性荧光团表达的群体进行分选。
免疫印迹:在补充有1x蛋白酶抑制剂混合物(Roche)、10mM NaPPi、10mM NaF和1mM正钒酸钠的RIPA缓冲液(20mM Tris-HCl pH7.5,150mM NaCl,1mM EDTA,1mM EGTA,1%NP-40)中裂解细胞沉淀。如有必要,对裂解物进行超声处理,并且使用NuPAGE Bis-Tris预制凝胶(Life Technologies)在NuPAGE MOPS SDS运行缓冲液(50mM MOPS,50mM Tris碱,0.1%SDS、1mM EDTA)中进行电泳。在转移缓冲液(25mM Tris-HCl pH 7.5,192mM甘氨酸,20%甲醇)中以120mA将蛋白转移至硝酸纤维素膜上1h。在用TBS-T洗涤两次后,通过用丽春红(Ponceau Red)染色5min来评估蛋白质转移。在室温下用5%BSA于PBS中进行膜的阻断1h。在PBS+5%BSA中制备初级抗体的稀释液,并且将膜在4℃下孵育过夜。在用TBS-T洗涤三次5min后,在PBS+5%BSA中制备适当的HRP偶联的二级抗体的稀释液,并且将膜在室温下孵育45min。在用TBS-T洗涤三次5min后,采用ECL检测试剂(Sigma;RPN2209)并且将膜暴露于ECLHyperfilm(Sgima;GE28-9068-37)以检测化学发光信号。
抗体
靶标 产品代码制造商
GFP ab6556 Abcam
黏着斑蛋白
p-Stat3 y705 9145L Cell Signaling
Stat3 sc-482x Santa Cruz
p-NFKB p65 3033P Cell Signaling
NFKB p65 86299Abcam
p-p38t180 d3f9 45115Cell Signaling
p-p38 9211s Millipore
神经上皮干细胞蛋白 611658BD Biosciences
p-yH2AX Ser 139 05-636Millipore
K27me3 07-449Millipore
总H3(H3 total) 1791Abcam
E-钙黏蛋白 31950Cell Signaling
波形蛋白 5741s Cell Signaling
山羊抗小鼠IgG(H L)-HRP 626520Invitrogen
山羊抗兔IgG(H L)-HRP G21234Invitrogen
IncuCyte:IncuCyte自动化纵向成像是在96孔黑壁板(Greiner)中进行的。在实验结束时,每板接种300,000个细胞,以达到最优汇合。使用D300e等分GSK126,而手工等分TGFB1+2至每个孔。两者均每两天更换。最后的时间点使用读板器(BMC Clariostar)独立验证。
CRISPRi筛选:对于CRISPRi筛选,在Astrios Moflo上分选A549-MGT#1±GSK126±Dox细胞。我们旨在每个群体内的在10%的最低(微弱)和10%的最高(亮)的细胞中1000x(>600万个细胞)的文库表示。还将中间群体分选,并作为对照包括在筛选分析中。将细胞在56℃下在AL+ProteinaseK缓冲液(Quiagen)中裂解10’,随后DNA提取是使用AMPure珠(Agencourt)和RNAse A处理提取的。CRISPRi文库的PCR扩增和条形码标签化基本上如所描述的进行,包括PCR缓冲液组合物77。对于每个样品,在PCR1中,我们使用分成包括来自输入对照的10个平行反应的20ug的DNA,而质粒文库在PCR1中需要0.1ng的DNA。将平行PCR1反应混合在一起,并将5ul用作PCR2的模板。我们在PCR1和PCR2两者中都使用了Phusion聚合酶(NEB)、GC缓冲液和3%DMSO。可根据需求提供引物。
测量文库浓度,并且汇集条形码文库,并在Illumina HiSeq2500测序上测序。用定制脚本(可根据需求提供)将读段映射到计算机文库中,以生成读段计数,随后将其用作Seqmonk的输入。我们使用定制基因组用于Seqmonk分析(可根据需求提供),并将样品相对于RPM归一化并且对数转换以生成MA图,而在padj<0.001的DEseq2则以原始读段计数运行。我们在A549中运行2个独立的CRISPRi筛选,并且在H1944中运行一个额外的筛选。
CRISPR/Cas9 KO:按照说明使用Cas9 RNP Synthego试剂盒敲除A549-MGT#1的CNKSR2和ARID1A。使用BioRad XCell于PBS中和使用标准脉冲对A549细胞进行电穿孔。首先使用T7E1以及TIDE计算(https://tide.nki.nl/)评估试剂盒中的最优gRNA。之后,我们使用流式细胞术以及低汇合铺板和手动克隆挑选对MGT#1荧光进行总体评估。
动物实验:所有小鼠研究均根据由机构动物护理和应用委员会(InstitutionalAnimal Care and Use Committee)批准的方案进行,并且符合欧盟的法规。原位胶质瘤异种移植物研究如先前所描述的76用修饰进行。NOD-SCID-IL2Rg/(NSG)小鼠购自The JacksonLaboratory,并保持在无特异性病原体(SPF)的条件下。我们使用了7-12周龄之间的雄性和雌性小鼠。
基因敲除:使用Synthego基因敲除试剂盒进行基因敲除。将sgRNA溶解在无核酸酶的1X Te缓冲液中,至储备液浓度为30uM。RNP复合物是通过将Cas9核酸酶-gRNA以6:1的比率混合形成的。使用Biorad GenePulser xCell(150伏,10ms),将每个RNP复合物电穿孔至于1x PBS中的在2mm比色皿中的250KA549-MGT1#1中。电穿孔后,在补充有10%胎牛血清和1%青霉素/链霉素的RPMI中培养细胞。电穿孔后的大约7天,使用Invisorb旋转组织分离试剂盒(Stratec)提取g DNA,在50ul洗脱缓冲液中洗脱,并且使用以gRNA靶基因座为中心的800至1200bp产物对目的靶基因进行PCR(可根据需求提供引物)。使用TIDE(NKI)和T7EI测定计算敲除效率。建立单独的克隆,或使用BD LSRFortessa和FlowJo程序通过FACS直接测定总体KO细胞。
实施例1:包括多形性胶质母细胞瘤(GBM)肿瘤细胞的亚型特异性合成基因座控制区(sLCR)的表达盒的设计。
高度的细胞和分子异质性被认为促成了在实体瘤中对标准治疗的抗性,并且这为靶向方法的发展带来了障碍。多形性胶质母细胞瘤(GBM)是最常见的原发性成人脑肿瘤,它是异常异质性的并且对治疗有抗性13。GBM也是具有最高程度的基因组和表观基因(epigenomic)表征的癌症之一14-16。基于转录物组,GBM肿瘤被反复分类为三种亚型,其中间充质和原神经更经常被交叉验证52、53、54。数项研究对亚型特异性基因表达标签和对治疗的差异响应以及患者的总体存活之间的相关性进行了辩论。这表明GBM亚型标识和命运改变可能具有治疗潜力。在GBM肿瘤中,主要的亚型和具有不同亚型标识的肿瘤细胞可能共存17,18。而且,肿瘤可以在复发时改变优势表达谱19,20
谱系追踪先前对小鼠模型中我们理解的GBM生物学具有主要影响,告知了——除其他之外——单个亚型5的细胞起源,以及异常的内稳态调控如何影响体内对护理标准的响应10
在本实施例中,我们描述了系统生物学方法,以设计合成系统,以遗传标记复杂发育和疾病环境中的任何细胞状态或转变,并测试该系统以寻求人GBM的分子亚型潜在的生物学原理。
首先,我们假设亚型特异性GBM基因将实质上包括特异性亚型标识所需的调控活性(即顺式调控元件)。我们进一步假设在每个亚型中表达的转录因子基因(TF)将主要负责建立和维持亚型标识。
为了设计将拦截最少信号传导和调控信息的基因盒,我们确定了与TCGA数据集16中所有其他亚型相比具有最高倍数变化的亚型特异性GBM基因。可以使用任意严格的切断(即>6Log2 FC;图6)来实现调用MES、CL和PN亚型特异性基因。同样,可以使用较不严格的切断(即>0Log2 FC)和标准通路分析工具(例如,独创通路分析,DAVID等)来鉴定TF。最初,来自我们先前实验的在GBM干样细胞(GSC)中低表达的基因(例如,<每百万4个计数,CPM)被丢弃,作为专注于细胞自主调控的测量(图6)。本方法的当前实现使用单细胞RNA-seq谱,如例如胶质瘤固有标签14
为了鉴定在亚型差异调控的基因(DGR)中具有高固有顺式调控潜力的基因组区,我们计算了与在每个亚型中表达的TF相关的最佳位置权重矩阵(PWM)的所有配对频率(图1a)。由于顺式调控DNA通常是无核小体区(NFRs;>147bp),并且涉及平均~1000bp21,为了精确定位这些元件,我们设置了具有150bp步长的1kb滑动窗口方法。对可能调控DRG的顺式单元的搜索通过由ENCODE联盟22,23确定的两个外部CTCF结合位点来界定,距基因起始/末端的距离任意设置为>10kb。这些准则近似于拓扑相关结构域(TAD)的功能定义,据信其包含给定基因座的顺式调控元件之间的绝大多数接触点,并使用CTCF作为边界蛋白24
为了使用上面描述的TFBS分析组装驱动亚型特异性表达的合成顺式调控元件,此类合成基因座控制区(sLCR)理想地应包括具有最高数量(i)和多样性(ii)的顺势单元的最小集合。理想地,组成一个sLCR的至少一个顺式单元还将包括自然转录起始位点(TSS),并将直接置于报道元件的上游(图1a)。利用这些准则,我们生成了用于遗传追踪MES、CL和PNGBM的sLCR(以下称为MGT、CLGT和PNGT)。可以使用算法以最小化决策并自动化sLCR生成(图7a)。潜在地调控这些基因的TFBS的两两相关性揭示了几个TF簇在一起并且远离其他TFBS簇(图1b)。该观察结果与来自ChIP-seq实验的实验观察结果一致,从而表明我们的程序返回了与基因组调控的功能和结构相关原理一致的结果。此外,多个细胞系中的ENCODEChIP-seq数据也支持结合至单个顺式单元的实际TF(图9)。重要的是,不同的MGT#1和MGT#2sLCR由高度独立的单个顺式单元组装,并且测量分别仅为827pb和1015bp的长度,各自可代表最高达60%的总体调控潜力。
实施例2:使用包括MGT#1作为sLCR的慢病毒载体在人胶质瘤起始细胞中间充质命运的遗传追踪
携带sLCR诸如MGT#1的典型的慢病毒载体,驱动荧光报道子mVenus或mCherry的亚型表达。为了促进体内遗传追踪,将mVenus驱动至质膜(通过Igk前导和血小板源性生长因子受体(PDGFR)跨膜序列标签化;图1c)并且将mCherry通过NLS穿梭至细胞核。为了使能够荧光可视化以及独立于报道子表达分选sLCR,我们还包括了经由普遍存在的PGK启动子表达H2B-CFP融合的第二盒(图1c)。
作为原型测试,我们在具有MGT#1-mVenus sLCR的HEK293T细胞中产生了慢病毒颗粒,并使用病毒颗粒感染具有MES基因型的人胶质瘤起始细胞(MES-hGIC)。在瞬时转染以及在稳定转导和冷冻切片的肿瘤球体两者中均观察到膜mVenus表达(图1d)。
接下来,用MGT#1慢病毒颗粒转导近等基因和特征化的MES-hGIC和PN-hGIC。PN-hGIC具有IDH1和TP53点突变的组合,其仅在PN GBM中发现,而MES-hGIC具有TP53、PTEN和NF1的三重敲减,以MES GBM背景为特征。有趣地,我们观察到在MES-hGIC中基础荧光有微小但可测量的增加,表明MGT#1反映了这些细胞中基础更高的固有信号传导(图1e)。由于TNFα被认为是优势的MES-GBM信号传导通路,并且可以诱导PN至MES转变20,我们接下来通过使MES-hGICs-MGT#1和PN-hGICs-MGT#1暴露于TNFα来测试MGT#1是否忠实地再现MES GBM信号传导。在TNF的存在下,先前已示出MGT#1sLCR的至少两个顺式单元直接接合TNF驱动的NFkB TF。令人放心的是,与每个亲本对照相比,TNFα在两种细胞类型中均诱导荧光增强。有趣的是,尽管FACS分选步骤确保在两种细胞类型中均存在相等基础水平的MGT#1表达,但MES-hGICs-MGT#1转变为MES-hGICs-MGT#1,而PN-hGICs-MGT#1仅达到PN-hGICs-MGT#1水平(图1e-f),验证了MGT#1报告子用于MES GBM亚型特异性表达,并且利用该系统为hGICs的适应性响应被刻入其肿瘤基因型中提供了证据。
人GIC和GSC在“NBE”条件下持续增殖,其代表补充有基础FGF和EGF的无血清Neurobasal培养基25。我们进一步用PDGF-AA补充我们的GIC,因为这是在GBM中最常基因扩增的信号传导通路26。为了使用我们的遗传策略调查MES-GBM信号传导的基态,我们在MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞中进行了中通量细胞因子筛选。GIC在标准条件下增殖,并将它们重新接种在384孔格式中。接下来,用生物学和技术复制品中的个体细胞因子刺激GIC,随后是在预定义的时程实验中连续荧光底部读数。在典型的实验中,我们从刺激后最多48小时纵向获取MGT#1荧光发射,并然后我们将荧光相对于初始GIC归一化。与先前的报道和上述实验一致,在TNFα信号传导的存在下,MES-hGICs-MGT#1转变为MES-hGICs-MGT#1(图2a,8)。因此,MGT#1告知了对于具有不同基因型的肿瘤细胞之间的外源信号传导的差异响应。此外,MGT#1是筛选框架以鉴定支持MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞的生长和亚型标识的相关信号传导的坚实基础。
实施例3:使用MGT#1和MGT#2sLCR作为读出用于研究GIC中固有的和适应性响应
在相同的实验条件下,第二独立报道子(MGT#2)示出一致的结果(图2a),这支持我们从基因表达谱开始生成功能性sLCR的能力。有趣地,MGT#1和MGT#2报道子两者均指示FBS能够诱导间充质分化,与TNFα的情况不同,这伴随着由目视检查和流式细胞术所测量的GIC分化(数据未显示)。这一发现可仅部分地由TGFB1的存在解释,TGFB1的确是FBS的已知组分。实际上,TGFB1是间充质诱导剂,但不会强烈诱导MGT#1,当在同一时间框内用作纯化的细胞因子时它不会促进分化(图2a)。也许更有趣地,在FBS上的这一观察结果与TCGA报告高度一致,即MES GBM标签不能在任何小鼠脑细胞中找到,而只能在FBS培养的星形胶质细胞中找到16
胶质瘤的小鼠模型中TNFα的体内来源被认为是肿瘤微环境(TME),尤其是胶质母细胞瘤相关的小胶质细胞/单核细胞(GAM)27。在hGAM中也观察到了TNFα表达28。有趣地,通过GAM的IDH1野生型GBM浸润最近与NF1缺陷和MEG GBM亚型标识相关联14。为了给募集到GBM的GAM会驱动NF缺陷型GBM细胞中的MES分化的假说提供实验支持,我们在体外进行了共培养IDH1野生型和NF1缺失的MES-hGICs-MGT#1微弱细胞与从具有GBM的患者中纯化的MACS-纯化的CD11b细胞。令人惊讶地,在存在IL-6刺激下,共培养的hGICs-MGT#1微弱细胞与CD11b+hGAM诱导MGT#1表达(图2b)。先前已示出IL-6可以刺激GAMs29,并且可以由GSCs30或来自TME的间充质干细胞31产生。值得注意的是,无论是未刺激的还是当暴露于TLR4内源性配体生腱蛋白-C(TNC32),其是另一种GSC衍生的促炎症因子33,hGAM都不足以驱动在MES-hGIC中的MGT#1表达。此外,无论是否存在hGAM,TNFα均在MES-hGIC中驱动MGT#1诱导(图2b)。因此,我们的数据揭示了涉及围绕IL6信号传导并导致MES GBM特化(specification)的在GBM TME中的潜在细胞串扰。这些数据也突显了sLCR在离体机制剥离非细胞自主相互作用的潜力。
我们的数据支持sLCR作为用于研究GIC中固有的和适应性响应的有效读出,但不排除这种读出很大程度上受限于报道子的唯一规则的可能性。为了理解报道子调控是否伴随细胞标识的差异,我们在MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞中进行了免疫印迹、球形基因表达谱分析和靶向mRNA验证。尽管在相同的实验条件下增殖,但通过测试的所有实验方式,MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞在信号传导通路激活和基因表达上持续示出有限但可测量的基础差异(图2c-d-e-f)。值得注意的是,尽管TNFα刺激在两种细胞类型中均诱导NFkB-p65、STAT3和p38-MAPK的磷酸化,但这导致了明显不同的基因表达输出(图2c-d-e-f)。因此,MGT#1告知了活性信号传导(例如TNFα)的影响,并且即使当先前存在的依赖于上下文的差异已到位(例如间充质信号传导扩增或转变),它也确实反映了相似的细胞命运转变。有趣地,总体的和靶向基因表达谱分析两者均表明,TNFα驱动PN-hGIC至更接近其初始状态的MES-hGIC的状态(图2c-d-e-f)。
实施例4:使用MGT#1从功能上测试环境损害(例如电离辐射)是否可能以GBM细胞自主方式诱导间充质转分化
GBM中的间充质分化最初被描述为放射治疗后复发的显性事件19,并且之后经由TNF驱动的NFKB活化与获得的辐射抗性相联系。反复地,相关证据支持炎症信号传导、EMT和辐射抗性之间的联系。为了从功能上测试辐照是否可能以细胞自主方式诱导间充质转分化,将MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞单独或与TNFα组合暴露于电离辐射(IR)。在此实验中,我们围绕着递送10Gy的单次辐射剂量,有两个原因:(i)我们实验性地确定这是亚致死的(单独或与其他治疗组合,包括TNFα或替莫唑胺;数据未显示),并且(ii)10Gy接近于实验性地证明引发作为固有辐射抗性的方式以及在多个人GSC中增强的修复能力34,35的二次响应的剂量。辐照二十四小时后残留的DNA损伤标志物H2A磷酸化证实了双链断裂和修复两者的发生。然而,只有一小部分GIC从任一遗传背景转变为MGT#1状态(图2g-h)。相反,MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞两者与TNFα组合均示出增强的间充质分化,表明TNF信号传导和IR协同诱导了这种细胞命运特化。综上所述,这些数据支持以下结论:亚致死IR与其他机制协同驱动GBM中的间充质转化。这些数据也支持以下推测:NFKB激活是由于由基因毒性应激引起的非经典信号传导而增强的36
实施例5:使用sLCR的GBM亚型化和重编程。
原神经GBM被认为代表了常见的GBM祖先亚型,并且也反映了少突胶质细胞的起源26,37。先前的研究表明,FBS中的长期增殖会影响单个细胞系的表型标识25,16。为了测试PNsLCR是否会反映原神经状态,我们决定使用在PN标识下的主TF来诱导FBS驱动的常规细胞系重编程为PN-GIC。为此,我们将MGT#1或PNGT#2转导至T98G细胞系中,其以更可能与PN表型相关的TP53突变(https://portals.broadinstitute.org/ccle)为特征16。与基因型驱动的预测一致,当从FBS替换为NBE增殖条件时,T98细胞示出PNGT#2的基础表达,而不是MGT#1的基础表达(图3a-b)。重要地,SALL3、SOX2和POU3F2的瞬时过表达进一步增强了PNGT#2的激活,但对MGT#1表达是中性的(图3b)。值得注意的是,这些实验组是用带有核定位信号传导的mCherry荧光蛋白进行的,因此排除了荧光蛋白强度(mCherry比mVenus更亮)、定位和稳定性(mVenus是跨膜且稳定的)在观察的表型转变中起主要作用。
总体而言,这些实验表明,使用本文所描述的系统和合成生物学方法,通过GBM细胞中的单个sLCR可以拦截已知在GBM生物学中起关键作用的多个固有和外部触发因子。
实施例6:使用MGT#1剖析乳腺癌和肺癌细胞中的上皮-至-间充质转化
间充质转分化是被上皮起源的多种肿瘤劫持的生理过程39。为了研究我们的遗传追踪策略是否延伸超出了GBM内稳态,我们接下来将MGT#1转导至特征明确的上皮和间充质乳腺癌细胞中。
肿瘤亚型被遗传刻印在乳腺癌细胞中40。一致地,在第一轮慢病毒转导后,上皮MCF7细胞与被认为已经历EMT的MDA-231细胞相比,示出更低的MGT#1表达(图10a-b)。为了确认MGT#1表达反映了实际的乳腺癌亚型标识,我们FACS分选并亚克隆了最高MCF7-MGT#1和中间MDA-231-MGT#1表达的细胞。然而,FACS分选的群体的进一步增殖重新建立了预分选的内稳态,MCF7表达的MGT#1水平比MDA-231更低。这样的水平似乎是稳定的,因为用EMT诱导剂TGFB2的短期处理在MCF7和MDA-231中均未强烈修饰基础MGT#1荧光(图4a)。
Ezh2抑制可以在几种小鼠和人肺癌细胞中支持Kras驱动的EMT41。在这种情况下,我们测试了sLCR在反映对生物和化学刺激的细胞和分子响应中的用途。与先前的发现一致,在上皮A549细胞中的纵向测量揭示了高MGT#1荧光由Ezh2抑制剂GSK126和TFGB信号传导协同诱导(图4b)。
暴露于TGFB信号传导的上皮肺癌细胞很容易改变其形态,以及开始表达高水平的MGT#1,如通过流式细胞术测量的(图11a-b)。有趣地,在早期时间点,流式细胞术揭示了TFGB信号传导和通过GSK126的Ezh2抑制诱导了相似程度的分子转变,但GSK126并未诱导细胞形态改变。在组合设置中,TFGB信号传导和GSK126协同地诱导MGT#1激活,并且还观察到中间形态变化(图11a-b),这引起了有趣的可能性,即GSK126除了作为比TGFB信号传导的放大器外还通过额外机制对EMT起作用。
实施例7:使用Ezh2抑制和MGT#1用于研究NSCLC细胞中上皮-至-间充质转化的信号传导和遗传基础
为了利用Ezh2抑制和MGT#1作为框架来阐明NSCLC细胞中EMT的信号传导基础,我们接下来在GSK126-和媒介物处理的A549-MGT#1细胞中进行了细胞因子筛选。与上述数据和我们最近发表的观察结果(Serresi et al.,J.Exp.Med,2018,doi:10.1084/jem.20180801)一致,TNFα被证明也是上皮肺癌细胞中对MGT#1表达的主要信号传导,对在纵向中通量微板读数器筛选中测量的总体高荧光输出具有GSK126的适度的累加效应。同时,我们证实,当GSK126存在时,A549细胞经由细菌LPS不同地响应于TLR刺激,并且也在这些实验条件下,我们示出了TGFB1当与GSK126组合时更显著地诱导MGT#1。用几种细胞因子及其组合筛选的系统分析表明,Ezh2抑制增强了对EMT的外部信号传导的转录响应(图12)。总体而言,MGT#1响应表明在EMT期间可能聚集多个信号传导通路,并且意味着转录抑制控制细胞亚稳定性。
接下来,我们希望利用Ezh2抑制和MGT#1作为高通量筛选的框架,以阐明NSCLC细胞中EMT的遗传基础。首先,我们用MGT#1报告子转导A549和H1944 Kras驱动的NSCLC细胞两者。随后,我们在两种细胞系中引入了Tet可诱导的KRAB-dCas9和靶向一整套人激酶组的sgRNA文库(543个基因,总计5,901个gRNA;~5个gRNA/基因)。此外,我们还包括了靶向gRNA的必需和非必需基因,以用作筛选过程的对照。该系统允许系统地敲减单个细胞中的单个基因(图4c)。通过如先前所述采用GSK126处理,我们FACS纯化了NSCLC细胞,这些细胞在支持荧光报告子的表达的能力中有所改进或受损,并且示出上皮或间充质表型(图4d-e)。基因集合富集分析支持筛选的整体质量,如通过必需基因但不是非必需基因所测量的,与输入群体相比,在体外在两种细胞系中都显著缺失(数据未显示)。通过比较A549-MGT#1和H1944-MGT#1与其MGT#1对应物,我们仅检索到小部分的gRNA在两种细胞系中在两种状态的任一状态下统计学差异地富集或缺失(14/5912,0.24%),表明大多数人激酶对于GSK126驱动的EMT是不必要的。然而,两种gRNA均具有统计学意义,并示出与A549-MGT#1和H1944-MGT#1细胞关联的高倍变化,表明它们的表达可导致激酶相关基因的转录抑制,从而使得在Ezh2抑制后肺癌细胞EMT(图4e)。有趣地,一种gRNA靶向先前被报道可增强NF-kB驱动的EMT的ACVR1受体42,并且一种gRNA靶向CNKSR2,CNKSR2是参与RAS依赖的信号传导的支架蛋白,其是用于控制肺癌中的EMT的非显而易见的候选。我们使用常规CRISPR/Cas9技术验证了筛选的结果,并且两个独立的克隆CNKSR2 KO克隆示出了与亲本对照相比增强的上皮特征,并且与预期为Ezh2功能丧失表型所需的ARID1A KO相似(图4f)。先前已示出RAS驱动的EMT通过Hippo通路发生43。我们通过使用潜在的sLCR生成的数据揭示了可能通过RAS/MAPK依赖的信号传导直接促进EMT的额外的机制。
综上所述,用三种不同癌症类型中的上皮-间充质转化获得的结果强调了我们的sLCR揭示肿瘤这种内稳态的组织非依赖性能力。
实施例6:MGT#1作为体内肿瘤内稳态的遗传追踪报道子
在证明了sLCR在剖析离体细胞和分子状态中的实用性之后,我们接下来希望测试MGT#1作为体内肿瘤内稳态的遗传追踪报告子的作用。我们将MES-hGICs-MGT#1微弱细胞颅内移植到NSG小鼠中并且纵向监测肿瘤形成。在高级别疾病阶段的神经体征发作时,我们处死动物并进行组织化学和免疫组织化学以及内源性和表面标志物分析。从组织结构上,所有肿瘤均显示为Ⅳ级GBM,小鼠脑的大部分被恶性细胞浸润,表明广泛的增殖和侵袭(图5a)。对于每只动物(n=10),我们使用成像引导的肿瘤切除术来生成单细胞制备(prep),同时保留浸润的脑组织。免疫组织化学染色揭示,表达MGT#1的细胞非随机分布在肿瘤块中,而很好地局限在侵袭前端(图5a-b)。
鉴于对病毒的响应,染色质修饰和基因沉默都可能潜在地影响sLCR表达,为了证实MGT#1反映功能性肿瘤内异质性并排除表达MGT#1的细胞仅仅是逃脱者,我们使用了两种方法。首先,我们检查了其中对于其他标志物以及MGT#1独立的H2B-CFP的表达不存在MESGBM信号传导的所有密集区域。我们证实了借助于微管蛋白染色在免疫染色中绝大多数被染色的肿瘤组织对于抗原是可接近的,并且我们证实了其中可以通过染色质浓缩推断出活性增殖的几个MGT#1“深色”细胞确实是H2B-CFP阳性的(图5c-d)。其次,我们通过流式细胞术进行了平行的体外/体外表面标志物和内源性分析。与免疫组织化学染色一致,内源性mVenus荧光表达在体内示出显著的异质性水平。与体外增殖的MES-hGICs-MGT#1微弱细胞相比,异种移植物衍生的肿瘤细胞示出明亮MES-hGICs-MGT#1细胞的少量群体,而绝大多数肿瘤细胞转变为MGT#1或暗状态(图5e)。细胞表面受体CD133,其通常用于标记患者来源的异种移植物中的肿瘤增殖细胞,示出了从体外总体CD133群体至低或阴性状态的相似的转变。值得注意的是,表达CD133的细胞包括相当部分的表达MGT#1和未表达的细胞,从而支持MGT#1描述功能异质性的能力(图5e)。
总体而言,我们的实验强调了sLCR阐明肿瘤内异质性的能力(图5f)。
进一步的实验以证明本发明的可行性和实现:
实施例7:合成基因座控制区(sLCR)的进一步表征
sLCR被设计为模拟内源性CRE,诸如α-珠蛋白LCR,其示出位置无关的细胞类型和发育阶段特异性表达并接合转录因子。这些元件通常被定义为超级增强子,并浓缩成辅激活物点(puncta)。为了测试sLCR是否与内源性LCR共享特征,我们通过RNA-FISH测量了MGT#1转导的细胞中新生的RNA,并使用IF搜索了BRD4或MED1浓缩物。双重IF和RNA-FISH在固定的表达MGT#1的肿瘤细胞中鉴定了BRD4或MED1与MGT#1的新生RNA之间的共定位(图1g)。此外,可诱导的MGT#1驱动的mVenus和“管家”PGK驱动的H2B-CFP mRNA两者均存在于肿瘤细胞细胞质中,但在细胞核中仅可检测到mVenus(图16),表明了两种CRE的差异强度。
接下来,我们将原神经(PNGT#1-2)和间充质(MGT#1-2)sLCR慢病毒颗粒转导至自发永生化人神经祖细胞中,其获得了PDGFRA、c-Myc和CDK4的高拷贝数。为了重现常见的PN和MES GBM遗传背景,我们进一步工程化hGIC,以使其缺失PTEN并且带有IDH1R132和TP53R273H点突变或者进一步缺失TP53和NF1,从而分别生成PN-hGIC和MES-hGIC。这些细胞示出与GBM患者相似的DNA甲基化谱,并在体内获得亚型特异性基因表达,并且因此代表了两种不同的GBM亚型。在体外生长因子定义的条件下,PNGT#1-2在两种细胞类型中均示出强表达,而MGT#1-2在两种基因型中均显示整体低表达,从而强调了针对不同调控网络的设计特异性。值得注意的是,与PN-hGIC相比,MGT#1在MES-hGIC中具有更高的基础表达,表明了基因型特异性响应(图1h)。
因此,我们设计了在保留内源性CRE的关键特征的同时系统地生成反映给定细胞标识的合成LCR的方法。
实施例8:支持通过sLCR的功能性报道子活性的额外证据
为了调查对MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞中外部信号传导的适应性响应,我们接下来进行了表型筛选。用选定的因子(细胞因子、生长因子、化合物)刺激NBE增殖的hGIC,并在刺激后48小时分析FACS(图13b)。相对于初始hGIC归一化,sLCR揭示了在MES-和PN-hGICs-MGT#1中的共享的和专有的响应,并突出了TNFα信号传导以及人血清或FBS和激活素A作为MES-GBM调控子。该结果在两个独立的MES-GBM sLCR(MGT#1-2)之间可重现并跟进验证。相反,PN表型似乎对由外部信号传导诱导的变化响应更低。(图13b-c和17)。MES GBM特化似乎是对先前存在的内源性表型的补充,如通过CD133和PNGT#2的表面表达所测量的。确实,先前曾报道过TNFα是重要的MES-GBM信号传导通路,并且是PN-至-MES转变的诱导剂。此外,发现NFkB(已知的TNF诱导的TF)在TNFα刺激下接合MGT#1sLCR中包括的至少两种CRE(图9b)。FACS分选的PN-hGICs-MGT#1具有与MES-hGICs-MGT#1可比较的MGT#1表达水平,但仍未达到与TNFα相似的响应(图2g和8和13a)。一致地,尽管在相同的信号传导条件下增殖,但MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞在所选信号传导通路的激活和内源性表达上显示出差异(图2)。TNFα刺激在两种细胞类型中均诱导了NFkB-p65、STAT3和p38-MAPK的磷酸化,但这导致了明显不同的基因表达输出(图2d)。这些分析表明,尽管TNFα驱动MES-hGIC中的MES GBM标签,但PN-hGIC致力于类似初始MES-hGIC的状态的状态(图2e-f)。总体而言,我们的结果表明sLCR MGT#1-2反映了内源性间充质GBM基因表达程序,同时捕获了信号传导通路(例如TNFα)的激活状态和任何先前存在的背景相关差异(例如MES与PN背景)。
促分化信号传导(即人血清或FBS)驱动报道子激活的观察结果与示出MES-GBM标签可能归因于FBS培养的星形胶质细胞而不是任何小鼠脑细胞的先前发现一致。值得注意的是,洗出(washout)实验表明MES-GBM状态在几天的时间框内是可逆的(图18),表明MESGBM状态可以被获取并反向。
GBM中的间充质转分化被发现为标准护理后复发的显性事件,并且经由TNF驱动的NFKB活化与获得的辐射抗性相联系。大量相关证据支持炎症信号传导、EMT、先天免疫细胞浸润和辐射抗性之间的联系。为了实验测试辐照是否可以以细胞自主方式诱导间充质转分化,将MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞单独或与TNFα组合暴露于电离辐射(IR)。无论是单剂量还是分次剂量,MGT#1激活均示出对IR升高的剂量响应(图2g和19)。MES-hGICs-MGT#1和PN-hGICs-MGT#1细胞两者与TNFα组合均示出增强的间充质转分化。单次10Gy辐射剂量在多种人GSC中是亚致死的。同样,无论单独还是与其他处理(例如TNFα或替莫唑胺)组合,我们的GIC都保持健康,并在辐照后二十四小时显示残留的DNA损伤标志物γH2AX磷酸化,从而证实已经发生了双链断裂并且正在修复中(图2h)。
经典NFkB激活可以发生在下游TNFα信号传导以及通过非经典基因毒性应激。为了对NFkB在固有的和获得的MES-GBM状态中的重要性提供实验支持,我们在MES-hGIC中使用CRISPR/Cas9删除了p65/RELA,这导致固有的MGT#1表达显著下调(图13c)。值得注意的是,虽然TNFα在多克隆和单克隆RELA KO细胞中诱导MES-GBM信号传导的能力显著受损,但IkB激酶(IKK)抑制剂-16进一步限制了对TNFα的适应性响应。在单克隆RELA KO GIC中,我们排除了由于RELA KO逃脱者而发生的补偿,这表明RELA KO细胞中的其他NFkB转录因子可以转导TNF信号传导(图19b)。
在患者中,GBM干细胞状态在维持肿瘤内稳态中是遗传库的主导。接下来,我们希望通过进行全基因组汇集的CRISPR/Cas9筛选测试sLCR是否可用于发现调控MES GBM状态的基因。在MES-hGICs-MGT#1中的遗传筛选以其初始状态进行或者当MES-GBM状态被外部信号传导或基因毒性应激诱导时进行(即分别是FBS+TNFα或TNZ+IR;图13d)。在73,179个gRNA中,表型筛选分别返回了与MGT#1高和低部分有关的333和1,164个gRNA(图13e)。文库和处理对MGT#1表达的影响,与适合度相关但非对照的基因的平均统计缺失,以及靶向RELA的两个sgRNA在初始状态下的缺失(图20a-d),都表明该筛选可以发现功能基因。有趣地,一些临床相关的药物靶标诸如PARP1和EED,似乎在所有条件下是MGT#1激活的关键调控子,但对于增殖不是必需的。据报道,PARP1活性是IR诱导的NF-kB激活所必需的,并且在其他情况下,Polycomb阻遏因子复合物2支架EED抑制促进EMT。为了测试这种方法是否可用于优先考虑导致细胞命运改变的药物治疗,我们搜索了命中的上游调控子。其中,一些gRNA与靶标下游RAR/RXR激动剂和MEK1抑制剂先前相关,分别具有MGT#1-低和-高部分富集的统计趋势(图13e和20)。为了验证两种药物都可能对细胞命运决定有影响的预测,我们将MES-hGICs-MGT#1暴露于MEK1选择抑制剂TAK-733或全反式维甲酸(ATRA)。在两种情况下,与单独的TNFα相比,MES-hGICs-MGT#1对短期TNFα刺激(4小时)的响应具有MGT#1和MES-GBM内源性标志物两者的更高的上调(图13f),表明预处理使这些细胞对MES GBM程序激活敏感。ATRA和TAK-733使MGT#1敏感高于EED/EZH2抑制剂GSK126的效果,从而支持治疗的特异性。因此,相比于仅基于适合度的先前大量研究,sLCR提供了药物基因组学信息的表型层。
总体而言,这些结果为间充质GBM是短暂且可逆的细胞状态提供了实验证据,并且支持设计的sLCR在表型筛选应用中的稳健性和有效性。
实施例9:sLCR能够区分分子上不同的实体
原发性癌症类型可以基于其分子谱分组。染色质可及性是癌症类型相似性的最强预测因子,并且可用于鉴定个体癌症类型的常见维度空间内的亚型标识。为了研究由sLCR描述的所获得的异质性是否伴随着全基因组染色质可及性的变化,我们在体外和体内对MES-hGICs-MGT#1细胞进行了ATAC-seq。染色质可及性的差异分析揭示了许多正在经历重构的基因,尤其是在PN-至-MES转变WWTR1(TAZ)的驱动子处和几个TNF受体基因位点处,表明重构事件的遗传追踪仅发生在生理相关的肿瘤微环境中(图14a-b)。来自TCGA和胶质瘤干细胞的ATAC-seq数据的集成进一步揭示了MES-hGICs-MGT#1细胞代表了普通胶质瘤空间内的特异性实体(图14c)。重要地,GIC的无监督染色质谱分析,由MGT#1高和低表达划分,将那些样本分组为定义的簇(图14d),表明MGT#1表达强调了染色质可及性中独特模式的获得。这些结果突显了sLCR在揭示肿瘤内异质性中的效力,并能够与主要的癌症数据一起对肿瘤模型进行深入的细胞和分子表征。
实施例10:sLCR有助于发现肿瘤和免疫细胞之间的非细胞自主性串扰的治疗意义
通过胶质母细胞瘤相关的小胶质细胞/单核细胞(GAM)的IDH1野生型GBM浸润最近已与NF1缺陷和MES-GBM亚型标识相关联,但GAM和MES-GBM之间是否存在因果关系仍未解决。为了实验性地测试先天免疫细胞是原因而不是由NF1缺陷型GBM细胞中的MES转分化募集的这一假设,我们进行了IDH1野生型和NF1缺失的MES-hGICs-MGT#1细胞与永生化人小胶质细胞系(hMG;cl.C20)的体外共培养。
首先,我们比较了在GBM肿瘤球体和多细胞类器官培养条件下由单细胞的PN-和MES-sLCR表达两者的表达。球状体培养支持具有受限的自发分化和细胞死亡的干细胞和祖细胞的扩增50,51,而胶质瘤类器官使表型多样化的细胞群体增加。类似于体内表达模式(图14a),我们发现MES-hGIC在类器官条件下和在人小胶质细胞的存在下显示出异质性PN-和MES-sLCR表达模式,与它们在纯球状体培养物中的同质性表达相反(图15a)。
接下来,我们使用穿透小室插入物在同质GBM肿瘤球体和hMG细胞之间建立共培养。令人惊讶地,hMG细胞在MES-hGIC中驱动MGT#1诱导的程度与TNFα相当(图15b-c和21)。与先前的实验一致,hMG也在PN-hGIC中激活MGT#1至更低程度。相比之下,在体外,由人CD34+衍生的髓系来源的抑制细胞(MDSC)仅在两种细胞系中轻度刺激MGT#1表达(图21)。来自两种条件下的MES-hGICs-MGT#1细胞的全转录组分析揭示了共同和专有的NFκB相关基因激活,并提供了证据表明适应性免疫细胞驱动特异性MES-GBM状态,其在很大程度上与患者的标签共享靶标(图15d)。有趣地,我们没有发现由任一细胞类型表达TNFα的证据。而是,以胆固醇生物合成途径中的基因为特征的代谢转录组重构似乎构成了针对与hMG细胞共培养特异性的MES-hGIC标签(图15e-g)。这些数据表明肿瘤细胞中NFkB的激活主要归因于先天免疫细胞。实际上,源自适应性免疫系统的炎症介质IFNγ和IL-2,以及基质衍生的IL-6没有在相当程度上触发直接的MGT#1激活(图17),共同提供了对导致体内MES-GBM状态的级联事件的实验见解。
EMT与化疗的抗性有关,但也提供了治疗机会。DNA损伤应激是GBM中护理标准的主要治疗组分,也称为Stupp方案。GBM中的TNF-NFkB标签先前与大量患者和PDX模型中的间充质状态和辐射抗性有关。因此,我们接下来利用sLCR鉴定MES内稳态的能力,以探索小胶质细胞驱动的GBM状态的治疗意义。
为此,我们在hMG驱动的转化后,FACS分选MGT#1-2和MGT#1-2MES-和PN-hGIC细胞,并将这些细胞暴露于一组选定的标准和靶向化疗剂。令人惊讶地,与它们的sLCR低对应物相反,MES-hGICs-MGT#1或-MGT#2细胞两者均证明对基于DNA损伤的治疗剂(奥拉帕利、ATR抑制剂VE-821、拓泊替康、丝裂霉素C)和LXR623(调控胆固醇外排的LXR激动剂)具有更高的抗性。(图15h和21)。重要地,MES-hGICs-MGT#1细胞保留了与靶向的剂诸如BAY11-7085(IκB)、WP1066(STAT3;图15h和21)的相似的敏感性谱。MES-hGICs-MGT#1的改变的化学敏感性谱与由hMG细胞驱动的基因表达变化一致,包括在MES-hGICs-MGT#1细胞中的DNA损伤基因标签表达受损,细胞周期谱与患者来源的MES-GBM的过表达和胆固醇生物合成标签一起变换(图21)。用原神经基因型获得了相似的结果,表明hMG细胞可以将hGICs转变为两种功能和治疗上不同的状态,并且支持sLCR在靶发现平台中的使用,以整合与肿瘤异质性相关的复杂响应。
总体而言,我们的结果偶然地将先天免疫细胞与MES-GBM状态相关联,并突出了sLCR在体内和离体中机械剖析相关非细胞自主相互作用的潜力。
本发明的进一步优点和实现:
目前,我们对生物水平上复杂的细胞和分子机制的理解主要依赖于体内实验,并且受到可用的遗传追踪技术的限制。我们已经建立了允许生成能够拦截细胞固有和非细胞自主信号传导的合成报道子的系统生物学框架。这些sLCR可用于说明体外和体内基因型-至-分子和细胞表型转变。在实验上,将生物、化学和环境刺激关联至细胞命运转变,包括通过化学和正向遗传筛选,sLCR可用于表征分子机制。
我们已应用这种方法来研究GBM亚型表达谱的细胞和分子特征。在表达平台(微阵列、RNA-seq)、读出(基因表达、DNA甲基化)和患者群体(西方和中国)中,原神经和间充质GBM亚型的鉴定是一致的。尽管如此广泛的努力,但当涉及到其起源、位置或时空演变时,GBM亚型的意义仍然是难以捉摸的。
通过组合近等基因模型和MES sLCR,我们示出了MES-GBM特化的最重要组件本质上是适应性的。尽管以MES-hGIC为例的基因型指导的固有MES信号传导当与PN-hGIC相比时示出了在MES sLCR的表达中可测量的但中等的差异,但TNF信号传导以及促分化刺激(例如FBS)是MES信号传导的主要触发因子。有趣地,TNFα和FBS两者都通过差异影响细胞形态来触发MES转分化。如通过MGT#1表达的异质性程度以及未分化和自我更新的肿瘤细胞的标志物推断的,这两种响应似乎都刻印在体内。我们的实验将GBM细胞中的MGT#1读出关联至与迁移相关的标志物诸如CD44的表达,对促炎性微环境的反应以及对亚致死剂量的遗传毒性应激的抗性,所有这些都代表了肿瘤进展的标志,包括在单细胞水平上的GBM中18。这些发现说明了MGT#1阐明GBM中细胞和分子机制的能力。
这项技术能够将细胞和分子谱分析转化成表型图,其可以满足与健康和疾病中的细胞和分子特征(包括单细胞水平)的连续映射相关的实验需求。实际上,sLCR改进了体内表型测定,其仍然代表全面理解生物水平上的复杂细胞和分子机制所必不可少的步骤。这样,它提供了重要的离体机会。
我们示出,反映体内调控网络的sLCR准确地拦截了细胞固有的和非细胞自主的信号传导,并且成功地应用于剖析体内和体外基因型-至-分子和细胞表型转变。我们通过研究GBM亚型表达谱的细胞和分子基础证明了该系统的实用性。在表达平台(微阵列、RNA-seq和单细胞RNA-seq)、读出(基因表达、DNA甲基化)和患者种族(西方和中国)中,原神经和间充质GBM亚型的鉴定是一致的。尽管这样广泛的努力,但当涉及其起源、位置或时空演变以及更重要地其治疗意义时,GBM亚型的意义仍是难以捉摸的。
原神经和间充质GBM程序依赖于特异性转录因子的活性。在这里,我们整合了近等基因模型和细胞系与sLCR,并且结果与是默认GBM实体的PN-GBM一致,其强烈依赖于RTK信号传导,并因此受到神经干细胞培养条件的促进。取而代之,我们示出了MES-GBM特化的最重要组件本质上是适应性的。在不存在肿瘤微环境下,即使在具有MEG-GBM基因型(例如NF1缺失)的细胞中,PN状态似乎是硬线连接的,但MES标识通过急性炎症和促分化刺激(例如TNF信号传导以及牛或人血清)而迅速扩增。有趣地,在不同的细胞类型中,通过sLCRs测量的MES转分化可能与差异地影响细胞形态一起发生。我们的实验将GBM细胞中的MES-sLCR读出、对促炎症微环境的前馈响应、对亚致死剂量的基因毒性应激的抗性以及迁移相关的标志物诸如CD44的表达相关联,所有这些都代表了人癌症进展的标志,包括在单细胞水平的GBM中。这些特征似乎刻印在组织内稳态中,如通过体内和离体肿瘤模型中的聚类细胞表达模式(“内稳态”)和异质性推断的。
三种不同癌症类型中MES-GBM主要组件的遗传追踪强调了我们sLCR揭示肿瘤内稳态的独立于组织的能力,并提供了EMT代表了劫持发育细胞过程的进一步证据。这些发现说明了sLCR在阐明多因素疾病中的细胞和分子机制中的多功能性。进一步的,在药物基因组学中使用sLCR可以通过揭示表型特异性依赖性和抗性来显著促进转化医学。
最终,sLCR能够机械剖析先天免疫细胞和肿瘤细胞之间的病理生理相关的非细胞自主相互作用。GAM被认为构成胶质瘤小鼠模型和人肿瘤两者中TNFα的来源。我们的结果为MES-GBM亚型与特异性免疫状况之间的临床关联提供了实验支持,并且揭示了对MES-GBM的TNFα非依赖性路径。重要地,本文鉴定的GAM驱动的MES-GBM状态示出与患者标签有一定程度的重叠,其与个体患者标签本身的重叠相当。
总之,通过将生物、化学和环境刺激关联至细胞命运转变,包括通过化学和遗传筛选,已证明sLCR能够用于表征分子机制。先前使用大规模平行测序或混合模型生成合成报道子的尝试揭示了这种方法的潜在用途和与对设计的有限控制相关的局限性。我们的方法实质上解决了这个问题,并且代表了未来发展的基础,从对基本设计组件的线性改进(例如,使用TFBS和顺式元件的策划资源)至系统生成和验证大量sLCR,随后是机器学习成功的特征。。同时,可以通过组合sLCR与DNA条形码来延伸稳健的细胞类型或状态特异性和粒度。可以通过将sLCR转录输入与能够进行布尔(Boolean)逻辑输出的合成效应蛋白偶联来实现可调操作。因此,通过sLCR的遗传追踪是可扩展的,并且可以延伸到几乎任何给定系统,无论是离体还是体内,以剖析控制正常和疾病内稳态的细胞固有和非细胞自主机制。
参考文献
1.Kretzschmar,K.&Watt,F.M.Lineage tracing.Cell 148,33–45(2012).
2.Barker,N.et al.Identification of stem cells in small intestine andcolon by marker gene Lgr5.Nature 449,1003–1007(2007).
3.Barker,N.,Tan,S.&Clevers,H.Lgr proteins in epithelial stem cellbiology.Development 140,2484–2494(2013).
4.Livet,J.et al.Transgenic strategies for combinatorial expression offluorescent proteins in the nervous system.Nature 450,56–62(2007).
5.Liu,C.et al.Mosaic analysis with double markers reveals tumor cellof origin in glioma.Cell 146,209–221(2011).
6.Schwitalla,S.et al.Intestinal Tumorigenesis Initiated byDedifferentiation and Acquisition of Stem-Cell-like Properties.Cell(2012).doi:10.1016/j.cell.2012.12.012
7.Schepers,A.G.et al.Lineage tracing reveals Lgr5+stem cell activityin mouse intestinal adenomas.337,730–735(2012).
8.Driessens,G.,Beck,B.,Caauwe,A.,Simons,B.D.&Blanpain,C.Defining themode of tumour growth by clonal analysis.Nature(2012).doi:10.1038/nature11344
9.Oshimori,N.&Fuchs,E.Paracrine TGF-βSignaling Counterbalances BMP-Mediated Repression in Hair Follicle Stem Cell Activation.Cell Stem Cell 10,63–75(2012).
10.Chen,J.et al.A restricted cell population propagates glioblastomagrowth after chemotherapy.Nature(2012).doi:10.1038/nature11287
11.Zhu,L.et al.Multi-organ Mapping of Cancer Risk.Cell 166,1132–1146.e7(2016).
12.Church,G.M.,Elowitz,M.B.,Smolke,C.D.,Voigt,C.A.&Weiss,R.Realizingthe potential of synthetic biology.Nat Rev Mol Cell Biol 15,289–294(2014).
13.Stupp,R.et al.Effects of radiotherapy with concomitant andadjuvant temozolomide versus radiotherapy alone on survival in glioblastomain a randomised phase III study:5-year analysis of the EORTC-NCICtrial.Lancet Oncol.10,459–466(2009).
14.Wang,Q.et al.Tumor Evolution of Glioma-Intrinsic Gene ExpressionSubtypes Associates with Immunological Changes in the Microenvironment.CancerCell 32,42–56.e6(2017).
15.Noushmehr,H.et al.Identification of a CpG island methylatorphenotype that defines a distinct subgroup of glioma.Cancer Cell 17,510–522(2010).
16.Verhaak,R.G.W.et al.Integrated genomic analysis identifiesclinically relevant subtypes of glioblastoma characterized by abnormalitiesin PDGFRA,IDH1,EGFR,and NF1.Cancer Cell 17,98–110(2010).
17.Sottoriva,A.et al.Intratumor heterogeneity in human glioblastomareflects cancer evolutionary dynamics.Proc Natl Acad Sci USA 110,4009–4014(2013).
18.Lee,J.-K.et al.Spatiotemporal genomic architecture informsprecision oncology in glioblastoma.Nature Genetics 49,594–599(2017).
19.Phillips,H.S.et al.Molecular subclasses of high-grade gliomapredict prognosis,delineate a pattern of disease progression,and resemblestages in neurogenesis.Cancer Cell 9,157–173(2006).
20.Bhat,K.P.et al.Mesenchymal Differentiation Mediated by NF-κBPromotes Radiation Resistance in Glioblastoma.Cancer Cell 24,331–346(2013).
21.ENCODE Project Consortium et al.Identification and analysis offunctional elements in 1%of the human genome by the ENCODE pilotproject.Nature 447,799–816(2007).
22.Thurman,R.E.,Day,N.,Noble,W.S.&Stamatoyannopoulos,J.A.Identification of higher-order functional domains in the human ENCODEregions.Genome Res 17,917–927(2007).
23.Kim,T.H.et al.Analysis of the vertebrate insulator protein CTCF-binding sites in the human genome.Cell 128,1231–1245(2007).
24.Ong,C.-T.&Corces,V.G.CTCF:an architectural protein bridging genometopology and function.Nat Rev Genet 15,234–246(2014).
25.Lee,J.et al.Tumor stem cells derived from glioblastomas culturedin bFGF and EGF more closely mirror the phenotype and genotype of primarytumors than do serum-cultured cell lines.Cancer Cell 9,391–403(2006).
26.Ozawa,T.et al.Most Human Non-GCIMP Glioblastoma Subtypes Evolvefrom a Common Proneural-like Precursor Glioma.Cancer Cell 26,288–300(2014).
27.Quail,D.F.et al.The tumor microenvironment underlies acquiredresistance to CSF-1R inhibition in gliomas.Science 352,aad3018(2016).
28.Szulzewsky,F.et al.Human glioblastoma-associated microglia/monocytes express a distinct RNA profile compared to human control and murinesamples.Glia 64,1416–1436(2016).
29.a Dzaye,O.D.et al.Glioma Stem Cells but Not Bulk Glioma CellsUpregulate IL-6 Secretion in Microglia/Brain Macrophages via Toll-likeReceptor 4 Signaling.J.Neuropathol.Exp.Neurol.75,429–440(2016).
30.Inda,M.-D.-M.et al.Tumor heterogeneity is an active processmaintained by a mutant EGFR-induced cytokine circuit in glioblastoma.GenesDev 24,1731–1745(2010).
31.Hossain,A.et al.Mesenchymal Stem Cells Isolated From Human GliomasIncrease Proliferation and Maintain Stemness of Glioma Stem Cells Through theIL-6/gp130/STAT3 Pathway.Stem Cells 33,2400–2415(2015).
32.Midwood,K.et al.Tenascin-C is an endogenous activator of Toll-likereceptor 4 that is essential for maintaining inflammation in arthritic jointdisease.Nat Med 15,774–780(2009).
33.Jachetti,E.et al.Tenascin-C Protects Cancer Stem-like Cells fromImmune Surveillance by Arresting T-cell Activation.Cancer Res 75,2095–2108(2015).
34.Stanzani,E.et al.Radioresistance of mesenchymal glioblastomainitiating cells correlates with patient outcome and is associated withactivation of inflammatory program.Oncotarget 8,73640–73653(2017).
35.Bao,S.et al.Glioma stem cells promote radioresistance bypreferential activation of the DNA damage response.Nature 444,756–760(2006).
36.Hinz,M.et al.A cytoplasmic ATM-TRAF6-cIAP1 module links nuclearDNA damage signaling to ubiquitin-mediated NF-κB activation.Mol Cell 40,63–74(2010).
37.Lei,L.et al.Glioblastoma models reveal the connection betweenadult glial progenitors and the proneural phenotype.PLoS ONE 6,e20041(2011).
38.Rheinbay,E.et al.An Aberrant Transcription Factor NetworkEssential for Wnt Signaling and Stem Cell Maintenance in Glioblastoma.CellRep(2013).doi:10.1016/j.celrep.2013.04.021
39.Kalluri,R.&Weinberg,R.A.The basics of epithelial-mesenchymaltransition.Journal of Clinical Investigation 119,1420–1428(2009).
40.Baird,R.D.&Caldas,C.Genetic heterogeneity in breast cancer:theroad to personalized medicine?BMC Med 11,151(2013).
41.Serresi,M.et al.Polycomb Repressive Complex 2 Is a Barrier toKRAS-Driven Inflammation and Epithelial-Mesenchymal Transition in Non-Small-Cell Lung Cancer.Cancer Cell 29,17–31(2016).
42.Wamsley,J.J.et al.Activin upregulation by NF-κB is required tomaintain mesenchymal features of cancer stem-like cells in non-small celllung cancer.Cancer Res 75,426–435(2015).
43.Shao,D.D.et al.KRAS and YAP1 converge to regulate EMT and tumorsurvival.Cell 158,171–184(2014).
44.Ohinata,Y.,Sano,M.,Shigeta,M.,Yamanaka,K.&Saitou,M.Acomprehensive,non-invasive visualization of primordial germ cell developmentin mice by the Prdm1-mVenus and Dppa3-ECFP double transgenicreporter.Reproduction 136,503–514(2008).
45.Gargiulo,G.et al.In vivo RNAi screen for BMI1 targets identifiesTGF-β/BMP-ER stress pathways as key regulators of neural-and malignantglioma-stem cell homeostasis.Cancer Cell 23,660–676(2013).
46.Gargiulo,G.,Serresi,M.,Cesaroni,M.,Hulsman,D.&Van Lohuizen,M.Invivo shRNA screens in solid tumors.Nat Protoc 9,2880–2902(2014).
47.Li,P.,Markson,J.S.,Wang,S.,Chen,S.,Vachharajani,V.,and Elowitz,M.B.(2018).Morphogen gradient reconstitution reveals Hedgehog pathway designprinciples.Science 360,543–548.
48.Blankvoort,S.,Witter,M.P.,Noonan,J.,Cotney,J.,and Kentros,C.(2018).Marked Diversity of Unique Cortical Enhancers Enables Neuron-SpecificTools by Enhancer-Driven Gene Expression.Curr Biol 28,2103–2114.e2105.
49.Takahashi,K.,and Yamanaka,S.(2006).Induction of pluripotent stemcells from mouse embryonic and adult fibroblast cultures by definedfactors.Cell 126,663–676.
50.Suvà,M.-L.,Rheinbay,E.,Gillespie,S.M.,Patel,A.P.,Wakimoto,H.,Rabkin,S.D.,Riggi,N.,Chi,A.S.,Cahill,D.P.,Nahed,B.V.,et al.(2014).Reconstructing andReprogramming the Tumor-Propagating Potential ofGlioblastoma Stem-like Cells.Cell
51.Frith,M.C.,Fu,Y.,Yu,L.,Chen,J.-F.,Hansen,U.,and Weng,Z.(2004).Detection of functional DNA motifs via statistical over-representation.Nucleic Acids Res 32,1372–1381.
52.Phillips,H.S.,Kharbanda,S.,Chen,R.,Forrest,W.F.,Soriano,R.H.,Wu,T.D.,Misra,A.,Nigro,J.M.,Colman,H.,Soroceanu,L.,et al.(2006).Molecularsubclasses of high-grade glioma predict prognosis,delineate a pattern ofdisease progression,and resemble stages in neurogenesis.Cancer Cell 9,157–173.
53.Verhaak,R.G.W.,Hoadley,K.A.,Purdom,E.,Wang,V.,Qi,Y.,Wilkerson,M.D.,Miller,C.R.,Ding,L.,Golub,T.R.,Mesirov,J.P.,et al.(2010).Integratedgenomic analysis identifies clinically relevant subtypes of glioblastomacharacterized by abnormalities in PDGFRA,IDH1,EGFR,and NF1.Cancer Cell 17,98–110.
54.Sturm,D.,Witt,H.,Hovestadt,V.,Khuong-Quang,D.-A.,Jones,D.T.W.,Konermann,C.,Pfaff,E.,
Figure BDA0003046721470000991
M.,Sill,M.,Bender,S.,et al.(2012).HotspotMutations in H3F3A and IDH1 Define Distinct Epigenetic and BiologicalSubgroups of Glioblastoma.Cancer Cell 22,425–437。
序列表
<110> 马克思-德布鲁克-分子医学中心亥姆霍兹联合会(MAX-DELBRüCK-CENTRUM FüRMOLEKULARE MEDIZIN IN DER HELMHOLTZ-GEMEINSCHAFT)
<120> 用于工程合成顺式调控DNA的方法
<130> PPI21170396DE
<150> EP18192715.3
<151> 2018-09-05
<160> 6
<170> PatentIn version 3.5
<210> 1
<211> 827
<212> DNA
<213> 人工序列
<220>
<223> sLCR
<400> 1
atatttattt ttaggaccag aaagttaaag tgaattggat ttgatccatt ttctgaaagg 60
ctggcaagaa ttcttgacat tgcacaggaa tttccatgtc agcatgttct cacatgtatg 120
atctaattta gagattattt tggggggcgg gggttgagga aatggcatga ctcagagttt 180
aaaagcccca aatcttagct gtgcctgtgt agctttacca cataacccat tgataactta 240
gttgtgcaac catcaccacc atctgttttc agaactcttt tcattttgcg aaactgaaac 300
ccgttaagca ctgatttccc actctccctc ctcccagccc atagcaaacc accatcccac 360
cagcactttc atttcgcaaa tggcaaaact gaagccgata ttgtggttgt gacttatccc 420
aaagtaatat acacataaac ctctatggat gaggaaaaag acagagggaa actaaaaatt 480
caaaagaaca aatttgactc acagatttgc tgactcatag ttgtgacact tcctggctca 540
ggaagttgaa tttcattaag cctttgtggt ttggggctct gctgtgcttt gacagctctg 600
atctcctccc ttccggctgg gctgtctggg gcgctctaaa atgagtgttg atttaatgca 660
ctgccttcgc acccgtgctg gtgcgtcccg gggacagggg tggctgtgcg gtgccgcggc 720
ggccggcggg gctccttccc cagcaggggt ggggacgctg agtcacggat ctgtcaccgc 780
tttgcacctc tccgagccct cgggggccaa agcaaaagcg aaagcga 827
<210> 2
<211> 1015
<212> DNA
<213> 人工序列
<220>
<223> sLCR
<400> 2
ctagaacagc agggccacct ccttctctcc cccgcgggca tgggccccca cccccactgc 60
cggcagagtg ctgaggactc gtgcaccatg agaacttctg accatgagaa ctttgacttc 120
cggatttggg ggatctgccc aggtgaacac aatgcaaggg gctgcatgac ctaccaggac 180
agaactttcc ccaattacag ggtgactcac agccgcattg gtgactcact tcaatgtgtc 240
atttccggct gctgtgtgtg agcagtggac acgtgagggg ggggtgggtg agagagacag 300
gccacattgt gcaacagatc tctagagctt tttcatcttg caaaactgaa actgtatacc 360
catggaacaa cagctccctg ctcccctccc cctcagctcc tgggtagtga catttcttga 420
ttctcagtaa actatcacaa gaacaaaaaa ccaaacaccg catattctca ctcataggtg 480
ggaattgaac aatgagatca catggacaca ggaaggggaa tatcacactc tggggactgt 540
ggtggggtgg ggggagtggg gagggatagc actgggatgt cccaagagaa ggggaagagg 600
gggaggtgtt agagaacttg tgtgttcaac cgaaacatga tgaaaacagg gaaagccccc 660
aagatacctg tcattcccga tgatgtcaga ttcagcaaat tcaatgataa caaaacatta 720
tgaaaaaatt agtaattaaa ataatacagc aatgtgtatg aacaaaataa tcaatgaaag 780
tgaaacctaa tagtaattcc acaaacttat tacaaagcta ttaatttaaa gagtagtggc 840
aattgaaaac cacaaccaac accagtgctt acagcagcaa tacttttact cagacttcct 900
gtttctggaa cttgccttct tttttgctgt gtttatactt cccttgtctg tggttagata 960
agtataaagc cctagatcta agcttctctg tcttcctccc tccctccctt cctct 1015
<210> 3
<211> 1050
<212> DNA
<213> 人工序列
<220>
<223> sLCR
<400> 3
agagctcctg gccaaggtct ttgtgttcag accagaagag gaaggagggc tccctccccc 60
tggggctgtg gaggctgagg ctcctggggg gttgtccaca tctggaccgt gggagctgtt 120
ggggggaatg ggggcaggtg gagaagagga taagcagctg attgggccca gactactctg 180
ggctggctcc atcttacatg actgccacaa acagctgcag gagtgtgaca gatcacaaca 240
ctagcattgt acctcaaaat atgcttgtac cctaaggcac aagaactggt ttgacttaca 300
accgcagccc ccgtccgggc accccgaggc ccgcgggagc caccctcgaa ccccggccgc 360
gcacgggcgg ggcggcgcgc acctgccggg agcccgtgtt tgtaaacaaa ccgcgcgcct 420
aattagcctg gcgggagcgc gcgcgcgggg cggggggcgg ggcgtcggtg cgcgcgggca 480
ggtcggcccc gcccggggag gagccgcgct ctgccgcgcc ctccgtgtca ccatctcccc 540
cacccgactt ggcggggcgc gggcttgctg gagcctgcgg gacccagagc ccgctccgga 600
gccagccctg ggagtggcca gcttgaaccc gagggccccg cagaccgtta ctccggcccc 660
cgcccggggc ggggcgcgcg ggggcgcggc gcagcccaac ccgcacagcc gcgtccccaa 720
acaccaccga ggagggaaaa cagacggaga ggggtggggc tgcgggcggg gccggcgcct 780
aattgggccg cgggcgcctc gaggtgggcg gggcataagg gggcggggcc gcggagaccc 840
cgggcgggag cagggagagg aaagaagaga ctgagtacgc ggagaccgag attcggaaat 900
atttctgcct taattgttct tccattgtct ttctcctgtg ggtcccctct cacctttctg 960
tatggtcctg gatcaccccc cgaggctttg tctcccccat ccacgggctt attctctcgg 1020
cacccccttc ctctcccgtc atcggttgat 1050
<210> 4
<211> 1164
<212> DNA
<213> 人工序列
<220>
<223> sLCR
<400> 4
ttaattaatc cctcctctaa tccctccagc gggatcaggg aggaggtgcg ggacctgctg 60
ccccgggctt gcccccatcc cggcctcacg catgggcgcc tgtctcagcc ctctcccagg 120
acgctgcagg tgtggctggg ccagcgctaa ttagtgggcc gcgcgggggc cccgctgagc 180
ctttgacaga aaaggcggta gggaggtggg ggcagggagg cgctccacca gccagaagtc 240
cggagcgcaa cccaaagtac tccatctcaa aagaaaaaag gcgggggcgg tggggggggg 300
gggtgatttc agtacaaagc ctacagacat tataaaaata ttaagatttt tgttcgtttg 360
ttttttgttt ttgagacaga gtctcactgt cacccccagg ctggagtctg tgccggcgcc 420
cgctgcttcg catctgcgcg cccgcccggt gccgggcccc gccctccgcc tcagccccaa 480
gctcggcccg cgggcccggc cacaggtgcc ccggcggccc cgcctggccc gagggaagag 540
ggcagctggg aggggcccat gagagaacca aaactgtgcc cccaggcttg gaaagaaatc 600
acatgtatgg ccagcaggaa ggttccggaa ggttccggag gacacctgca ggtgggactg 660
agaacagggg tctcggctgg gagtggctga ggccatatga ggacctcgac tgccacaaac 720
agctgcagga gtgtgacaga tcacaacact agcattgtac ctcaaaatat gcttgtaccc 780
taaggcacaa gaactggttt gacttacaaa actgatctca gagttgggat caaagttttt 840
ctaccactct actatgagcc ctcggccggg ccccgccccg ccagctccgc gcggctctgg 900
gctctctagg ggtggggctg cgggcggggc cggcgcctaa ttgggccgcg ggcgcctcga 960
ggtgggcggg gcataagggg gcggggccgc ggagaccccg ggcgggagtt tttttctgca 1020
agcgagaggg ggggtgttgt tggtatcgcc ccctccttct cctcccccca ggggtgaaag 1080
tgcaagagga agtgcagccg ctgccatctt tcctccgctc cgaacacacg gagcccgggg 1140
ccgcacagcc gccgctcctg taca 1164
<210> 5
<211> 1110
<212> DNA
<213> 人工序列
<220>
<223> sLCR
<400> 5
atggtctcaa tctcctgacc ttgtgatccg cccacctcgg cctcccaaag tgctgggatt 60
acaggtgtga gccaccacgc ccagccgaca gtcccttatc tggttcatct tcgtacctct 120
aaaagtcagc atggatgctc tattaatgat atatttatac atattagcaa caaacaattg 180
gaaactaaaa ctttaaaaag acattctcac acctgtaatc ccagcatgtt gggaggtcga 240
ggcaggcgaa tcacgaggtc aggagttcga gaccagcctg gccaacatgg tgaaactctg 300
gaagaccgaa actattcagc aagaactaag aaccacaatg ttaagggggt ccattgttta 360
tttttttttc tttagaggat gaaaaccaaa ggtcaggtga tttaatttaa aattaacact 420
cttatttttt gcccgcccgc ctgcctgcct ctttacaatt tacagaatgt cttaaggtag 480
ttaagtttca agtttttctt tctcagtatc ctaccttcat gcatcaaagt gggtggcctt 540
tatcccatta acggcaatta cgtaagacag atgtccctag atgaaatctt acagttcttt 600
tagtcagacc ccccaccccg ccaccgccac cagacaccac catcgctgtg tagtgtgggt 660
ttttattcgt gttcgtgtgt gtgtgtggac acattttcct tttcggttgc tctgtccttt 720
ggttcgtgct cgcctcgctt tttccacact cctgctctct ggctctctgt gtctctcgct 780
ctttcgaaaa ttttcctaag tccgggcgcg cgctccctcc ccttccgccc accccagccc 840
ctcggcggcg cccgcgggag ggggaggagg cctcgggggc gccgggcgac gcggtccggg 900
gggtggagcg ttggcgtcgt gcgaggggtc gtcactggcg cggagacgcc ccctctcccc 960
cctcggctca gccgggctgc tgcccgagcc cggggggtgg ggggcgtctc cccggcccgt 1020
cccgtccccg gccgggcgcg ggcggaggga ccccctcccc gggctcccgg ggggccgcct 1080
ccctccgccg gctcccgccc tcccagccgc 1110
<210> 6
<211> 1112
<212> DNA
<213> 人工序列
<220>
<223> sLCR
<400> 6
ttaattaaga atatctggct ggccacgtgt ttgtaaagaa aaaccaagac ggccaggcga 60
ggtggctcac acctgtaatc ccagcacttt gggaggccga ggcgggcgct gcccttcggc 120
cttcaaggag gaattcctac tgtttatgaa gatcgggttt gggtttttgg tttttttttt 180
ctttttcttt tttccgtggt ggtggtgggt gggcttttgt tctttttgtt ttttctgtgg 240
tggtggtggg tgggctttat gaatatacca tattttgcct attgtttttc tatttatcag 300
gtggtgtcat ttgagttgtt ttcaccctct tgtgactatg aataatgata ctataaacaa 360
tcttatacag catcagtgtc aaaaatcact aacattccta tacacagacg tgactaaact 420
tccagcttgg ggtcccgtgg acctgcagcc aggtgcagca ggtcacaggg caaggacacg 480
tgtcattggt gaccttcact attcagtgcc cagatgctca gtgctctgtg caggccacct 540
ggctggtctc aggtaccgct gctctgtctc gctcaccggc cgggctatgt tgattgtccc 600
ctcgcggcgc ccggaagcga ccctcagtaa acaaagccgt gtgtgggcgc agccccagaa 660
gcctggggcg cgcagtccag cccaagagag gcgggggagg aatgttgtga atgaaccccg 720
ggcccgcccc gaaactccgc ataaggcctg ggccgcgggg gtcctcccac tctgattggc 780
ctctggcgcc ccgtgattga cagcgcccct cgctgtgcgc tctggttggg taaacaagaa 840
aagactggca tcgcagtcat cgagtgagca gcgaggcttg gacacgggtc tggcggcgca 900
gccaatggcg ggggagggcc gaggaggccg agggggggcc aatagggaca ggcggtgggg 960
gcgggacgac ggcggagcta aagcggcggc tgaagcagct tcattgttgt gaagagtctt 1020
aaaggggccg catcaccctg ccggcccggc gcgggtcggg ggtgggtgcg gtaggggtcc 1080
cggggcggcc gagcgcagag gacggatgta ca 1112

Claims (15)

1.用于生成细胞类型特异性表达盒的方法,所述方法包括以下步骤:
a)提供目的细胞类型的基因表达谱,
b)提供所述目的细胞类型的基因组序列数据,
c)从所述基因表达谱中选择标签基因的集合,其中所述标签基因(i)与参考细胞类型相比受到差异调控,或(ii)根据基因表达水平选择,
d)在c)中选择的所述标签基因的集合中鉴定编码转录因子的基因,
e)从所述基因组序列数据中确定基因组区的集合,其中,每个基因组区包括编码在c)中鉴定的标签基因的序列和与编码所述标签基因的序列相邻的额外的基因组序列,
f)鉴定在e)中确定的所述基因组区的集合内的具有相当和有限大小、优选相等大小的多个基因组亚区,其中,所述基因组亚区包括在d)中鉴定的一个或多个转录因子的一个或多个结合位点,
g)从f)中确定的基因组亚区中选择基因组亚区的最小集合,优选2至10个之间,其中,选择所述基因组亚区的集合以包括在d)中鉴定的所有转录因子的预定百分比的转录因子结合位点,以及
h)生成包括与报道基因或效应基因可操作地偶联的在步骤g)中选择的所述基因组亚区的集合的细胞类型特异性表达盒,其中,将所述基因组亚区配置为调控所述报道基因或效应基因的表达。
2.根据前一权利要求所述的用于生成表达盒的方法,其中
-所述基因表达谱包括目的细胞类型中基因的表达水平,以及
o根据步骤c)(i)提供参考细胞类型的基因表达谱,所述基因表达谱包括所述参考细胞类型中基因的表达水平,并且通过鉴定与所述参考细胞类型中的表达水平相比被上调或下调的基因来选择差异调控的标签基因,优选选择在所述目的细胞类型中上调3至10倍的基因,或
o根据步骤c)(ii)根据所述目的细胞类型的基因的基因表达水平将所述目的细胞类型的基因排序,并且基于标签基因的预定水平或预定数量的表达,诸如所述目的细胞类型中100至1000个最高表达的或者100至1000个最低表达的基因,选择标签基因。
3.根据前述权利要求中任一项所述的用于生成表达盒的方法,
其中,
所覆盖的转录因子的预定百分比为30%或更多,优选40%或更多,最优选50%或更多。
4.根据前述权利要求中任一项所述的用于生成表达盒的方法,
其中,
在e)中确定的所述基因组区对应于包含差异调控的基因的拓扑相关结构域的基因组序列,其中,优选地拓扑相关结构域对应于两个CTFC结合位点之间的基因组序列,优选地位于所述标签基因的以及包括所述标签基因的编码区之外。
5.根据前述权利要求中任一项所述的用于生成表达盒的方法,
其中,
步骤f)中鉴定具有相等大小的基因组亚区通过对e)中确定的所述基因组区的滑动窗口算法来进行,
其中,优选地所述窗口具有的长度为500bp至5000bp、优选700bp至2000bp、更优选800bp至1200bp、最优选1000bp以及
所述滑动步长具有的长度为100bp至1000bp、优选120bp至300bp、更优选130bp至170bp、最优选150bp。
6.根据前述权利要求中任一项所述的用于生成表达盒的方法,
其中,
g)中的基因组亚区的集合的选择通过计算f)中鉴定的每个基因组亚区来进行:
-在基因组序列数据中根据d)的转录因子的结合位点的富集,以及
-存在结合位点的转录因子的多样性的得分,
-其中,根据存在结合位点的转录因子的累计百分比将所述基因组亚区排序,以及
-其中,选择基因组亚区的最小集合以包括d)中鉴定的所有转录因子的预定百分比的结合位点。
7.细胞类型特异性报道载体,所述细胞类型特异性报道载体包括通过根据前述权利要求中任一项所述的方法生成的表达盒。
8.细胞类型特异性报道载体,所述细胞类型特异性报道载体包括
合成调控区,所述合成调控区包括2至10个100bp至1000bp的基因组亚区,所述基因组亚区位置相邻,没有接头或具有小于100bp的接头序列位于所述亚区之间,其中所述亚区源自细胞类型的同一基因组中的分开(非相邻)的位置,其中所述亚区累计包括至少5个、优选至少10个、最优选至少20个转录因子的结合位点,以及
报道基因或效应基因,
其中,所述基因组亚区与所述报道基因或效应基因可操作地偶联,以调控所述报道基因或效应基因的表达。
9.根据前一权利要求所述的载体,
其中,
所述基因组亚区的每个具有的长度为120bp至300bp、更优选130bp至170bp、最优选150bp。
10.根据权利要求8或9中任一项所述的载体,
其中,
与所述报道基因或效应基因相邻的所述基因组亚区包括转录起始位点。
11.根据权利要求8至10中任一项所述的载体,
其中,
所述报道基因或效应基因编码选自由以下组成的组的蛋白:荧光蛋白、自杀基因、荧光素酶、β-半乳糖苷酶、氯霉素乙酰转移酶、表面受体、蛋白标签,包括但不限于6XHis标签、V5标签、GFP标签,自加工核酶盒、甲羟戊酸激酶及其衍生物,生物素连接酶及其衍生物,包括但不限于BirA,工程化过氧化物酶及其衍生物,包括但不限于APEX2,内切核酸酶或位点特异性重组酶及其衍生物包括但不限于限制性酶、Cre、Flp、Tn5、SpCas9、SaCas9、TALENs、矫正单基因疾病的基因。
12.根据权利要求8至10中任一项所述的载体,
其中,
所述载体包括根据SEQ ID NO 1-6的核酸序列或与SEQ ID NO 1-6的任何一个具有至少80%、优选至少90%的同一性的核酸序列。
13.根据权利要求8至12的载体用于在基因和病毒治疗、药物发现或验证中转化细胞和/或确定细胞特性优选细胞类型、状态或命运转变的用途。
14.用于确定细胞特性优选细胞类型、状态或命运转变的方法,所述方法包括以下步骤:
a.提供根据权利要求8至12的载体,
b.提供细胞,
c.用所述载体转导细胞,
d.测量指示报道基因的表达的信号,其中,所述信号的量对所述细胞的特性优选细胞类型、状态或命运转变有指导性。
15.一种用于确定合成基因座控制区(sLCR)的序列的计算机实现的方法,所述方法包括根据权利要求1所述的步骤a)至g)。
CN201980072060.5A 2018-09-05 2019-09-05 用于工程合成顺式调控dna的方法 Pending CN113166767A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18192715.3 2018-09-05
EP18192715 2018-09-05
PCT/EP2019/073711 WO2020049106A1 (en) 2018-09-05 2019-09-05 A method for engineering synthetic cis-regulatory dna

Publications (1)

Publication Number Publication Date
CN113166767A true CN113166767A (zh) 2021-07-23

Family

ID=63667685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980072060.5A Pending CN113166767A (zh) 2018-09-05 2019-09-05 用于工程合成顺式调控dna的方法

Country Status (6)

Country Link
US (1) US20210343368A1 (zh)
EP (1) EP3847261A1 (zh)
JP (1) JP2021534807A (zh)
CN (1) CN113166767A (zh)
CA (1) CA3111045A1 (zh)
WO (1) WO2020049106A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022232049A1 (en) * 2021-04-26 2022-11-03 The Regents Of The University Of California High-throughput expression-linked promoter selection in eukaryotic cells
CN114410621A (zh) * 2021-12-31 2022-04-29 吉林大学第一医院 一种简便快速的高通量基因组裸dna提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001049868A1 (en) * 1999-12-31 2001-07-12 Korea Research Institute Of Bioscience And Biotechnology Cancer cell-specific gene expression system
WO2008107725A1 (en) * 2007-03-05 2008-09-12 Regulon S.A. A method for the construction of cancer-specific promoters using functional genomics
WO2015110449A1 (en) * 2014-01-21 2015-07-30 Vrije Universiteit Brussel Muscle-specific nucleic acid regulatory elements and methods and use thereof
CN105073995A (zh) * 2013-02-01 2015-11-18 瑟莱克斯公司 增强的转基因表达和加工

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US6040138A (en) 1995-09-15 2000-03-21 Affymetrix, Inc. Expression monitoring by hybridization to high density oligonucleotide arrays
US5800992A (en) 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
EP0880598A4 (en) 1996-01-23 2005-02-23 Affymetrix Inc RAPID EVALUATION OF NUCLEIC ACID ABUNDANCE DIFFERENCE, WITH A HIGH-DENSITY OLIGONUCLEOTIDE SYSTEM
WO1999023254A1 (en) 1997-10-31 1999-05-14 Affymetrix, Inc. Expression profiles in adult and fetal organs
US6020135A (en) 1998-03-27 2000-02-01 Affymetrix, Inc. P53-regulated genes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001049868A1 (en) * 1999-12-31 2001-07-12 Korea Research Institute Of Bioscience And Biotechnology Cancer cell-specific gene expression system
WO2008107725A1 (en) * 2007-03-05 2008-09-12 Regulon S.A. A method for the construction of cancer-specific promoters using functional genomics
CN105073995A (zh) * 2013-02-01 2015-11-18 瑟莱克斯公司 增强的转基因表达和加工
WO2015110449A1 (en) * 2014-01-21 2015-07-30 Vrije Universiteit Brussel Muscle-specific nucleic acid regulatory elements and methods and use thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
聂玉敏 等: "调控真核基因表达的非编码序列", 《生物物理学报》, vol. 29, no. 4, 30 April 2013 (2013-04-30), pages 249 - 265 *

Also Published As

Publication number Publication date
US20210343368A1 (en) 2021-11-04
JP2021534807A (ja) 2021-12-16
CA3111045A1 (en) 2020-03-12
WO2020049106A1 (en) 2020-03-12
EP3847261A1 (en) 2021-07-14

Similar Documents

Publication Publication Date Title
Alonso-Curbelo et al. A gene–environment-induced epigenetic program initiates tumorigenesis
Stringer et al. A reference collection of patient-derived cell line and xenograft models of proneural, classical and mesenchymal glioblastoma
Schrader et al. Actionable perturbations of damage responses by TCL1/ATM and epigenetic lesions form the basis of T-PLL
Rahrmann et al. Forward genetic screen for malignant peripheral nerve sheath tumor formation identifies new genes and pathways driving tumorigenesis
Schmitt et al. Phenotypic mapping of pathologic cross-talk between glioblastoma and innate immune cells by synthetic genetic tracing
Ivins et al. Microarray analysis detects differentially expressed genes in the pharyngeal region of mice lacking Tbx1
KR20230170142A (ko) 전이성 암의 치료 및 전이성 질환에 대한 모델 시스템
Li et al. RNA splicing of the BHC80 gene contributes to neuroendocrine prostate cancer progression
Lazure et al. Transcriptional reprogramming of skeletal muscle stem cells by the niche environment
Guijarro et al. Dual Pten/Tp53 suppression promotes sarcoma progression by activating Notch signaling
CN113166767A (zh) 用于工程合成顺式调控dna的方法
Liu et al. Stromal AR inhibits prostate tumor progression by restraining secretory luminal epithelial cells
Murray et al. LKB1 drives stasis and C/EBP-mediated reprogramming to an alveolar type II fate in lung cancer
Patel et al. A GATA4-regulated secretory program suppresses tumors through recruitment of cytotoxic CD8 T cells
Landa et al. Telomerase upregulation induces progression of mouse BrafV600E-driven thyroid cancers and triggers nontelomeric effects
Ong et al. Requirement for TP73 and genetic alterations originating from its intragenic super-enhancer in adult T-cell leukemia
Lei et al. Noncoding SNP at rs1663689 represses ADGRG6 via interchromosomal interaction and reduces lung cancer progression
Swoboda et al. STAT3 promotes melanoma metastasis by CEBP-induced repression of the MITF pigmentation pathway
Morel et al. Loss of tristetraprolin activates NF-κB induced phenotypic plasticity and primes transition to lethal prostate cancer
Peña-Hernández et al. BAZ2A association with H3K14ac is required for the transition of prostate cancer cells into a cancer stem-like state
Orstad et al. FoxA1 and FoxA2 regulate growth and cellular identity in NKX2-1-positive lung adenocarcinoma
Dederichs Discovery of underlying mechanisms by which clonal hematopoiesis of indeterminate potential (CHIP) provokes coronary artery diseases
Zhu et al. FOXP2 confers oncogenic effects in prostate cancer through activating MET signalling
Berlak Mechanistic insights into ALK inhibitor resistance in neuroblastoma
Smith Leveraging Transcription Factor Dependent RNA Profiling to Interrogate Gene Regulatory Networks in Human Disease Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination