CN103459611B - 对多能干细胞的效用和安全性进行表征的功能基因组学研究 - Google Patents

对多能干细胞的效用和安全性进行表征的功能基因组学研究 Download PDF

Info

Publication number
CN103459611B
CN103459611B CN201180055683.5A CN201180055683A CN103459611B CN 103459611 B CN103459611 B CN 103459611B CN 201180055683 A CN201180055683 A CN 201180055683A CN 103459611 B CN103459611 B CN 103459611B
Authority
CN
China
Prior art keywords
cell
gene
stem cell
pluripotent stem
oligonucleotide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180055683.5A
Other languages
English (en)
Other versions
CN103459611A (zh
Inventor
凯文·C·埃根
亚历山大·迈斯纳
克里斯托弗·博克
伊万耶洛斯·基斯基尼斯
格里特·安妮·弗兰斯·维斯塔本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harvard College
Original Assignee
Harvard College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harvard College filed Critical Harvard College
Publication of CN103459611A publication Critical patent/CN103459611A/zh
Application granted granted Critical
Publication of CN103459611B publication Critical patent/CN103459611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1072Differential gene expression library synthesis, e.g. subtracted libraries, differential screening
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P1/00Drugs for disorders of the alimentary tract or the digestive system
    • A61P1/04Drugs for disorders of the alimentary tract or the digestive system for ulcers, gastritis or reflux esophagitis, e.g. antacids, inhibitors of acid secretion, mucosal protectants
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P21/00Drugs for disorders of the muscular or neuromuscular system
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P25/00Drugs for disorders of the nervous system
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P25/00Drugs for disorders of the nervous system
    • A61P25/28Drugs for disorders of the nervous system for treating neurodegenerative disorders of the central nervous system, e.g. nootropic agents, cognition enhancers, drugs for treating Alzheimer's disease or other forms of dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P3/00Drugs for disorders of the metabolism
    • A61P3/08Drugs for disorders of the metabolism for glucose homeostasis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P3/00Drugs for disorders of the metabolism
    • A61P3/08Drugs for disorders of the metabolism for glucose homeostasis
    • A61P3/10Drugs for disorders of the metabolism for glucose homeostasis for hyperglycaemia, e.g. antidiabetics
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P37/00Drugs for immunological or allergic disorders
    • A61P37/02Immunomodulators
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P43/00Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P9/00Drugs for disorders of the cardiovascular system
    • A61P9/04Inotropic agents, i.e. stimulants of cardiac contraction; Drugs for heart failure
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Abstract

总体上,本发明涉及用于多能干细胞的参比数据集或“记分卡”;以及生成用于对多能干细胞系在期望用途中的功能性和适用性进行预测的记分卡的方法、系统和试剂盒。在一些方面,用于生成记分卡的方法包括使用选自于如下分析中的至少2种干细胞分析:表观遗传分析、分化分析以及基因表达分析,以对多能干细胞系在期望用途中的功能性和适用性进行预测。在一些实施方式中,可将记分卡参比数据集与多能干细胞数据进行比较,以有效且准确地对所述多能干细胞在给定应用中的效用进行预测;以及对所述多能干细胞的特异性特征进行鉴定,以测定它们在下游应用中的适用性,例如,它们在例如治疗用途、药物筛选和毒性分析、向期望细胞谱系分化等方面的适用性。

Description

对多能干细胞的效用和安全性进行表征的功能基因组学研究
相关申请的交叉引用
根据35U.S.C.119(e),本申请要求2010年9月17日提交的美国临时专利申请序列号No.61/384,030和2011年1月5日提交的临时申请No.61/429,965的优先权,将其内容整体引入本文作为参考。
技术领域
本发明涉及对干细胞进行表征的方法(如通过高通量的方法进行表征),并涉及标准化和优化用于疾病建模、研究干细胞群及其治疗疾病的用途的多能(pluripotent)细胞系的选择的方法和组合。
政府支持
本发明的一部分是在NIH路线图计划表观基因组学项目(“NIH RoadmapInitiative on Epigenomics”)下的基金号U01ES017155的政府支持下作出的,所述基金由美国国家卫生研究院授予。美国政府在本发明中拥有一定的权利。
参考表格
这一申请包含三个光盘作为原始提交的主题的一部分,所述三个光盘标记为“Copy 1”和“Copy 2”以及“Copy 3”,各光盘含有11个文本文件(txt files)。各光盘(“Copy1”、“Copy 2”和“Copy 3”)包含用于10个单独的长表格的11个文本文件,所述文本文件被命名为“002806-067741-P2_TABLE 3.txt”(9,919 KB,1/7/2011创建)、“002806-067741-P2_TABLE 4.txt”(19,381 KB,1/7/2011创建)、“002806-067741-P2_TABLE 5.txt”(10,006KB,1/7/2011创建)、“002806-067741-P2_TABLE 8.txt”(98 KB,1/7/2011创建)、“002806-067741-P2_TABLE 10.txt”(180 KB,1/7/2011创建)、“002806-067741-P2_TABLE 12A.txt”(160 KB,1/7/2011创建)、“002806-067741-P2_TABLE 12B.txt”(160 KB,1/7/2011创建)、“002806-067741-P2_TABLE 12C.txt”(31 KB,1/7/2011创建)、“002806-067741-P2_TABLE13A.txt”(25KB,1/7/2011创建)、“002806-067741-P2_TABLE 13B.txt”(28KB,1/7/2011创建)、以及“002806-067741-P2_TABLE 14.txt”(10KB,1/7/2011创建)。各光盘(“Copy 1”、“Copy 2”和“Copy 3”)的机器格式(machine format)为IBM-PC,各光盘的操作系统为MS-Windows。将标记为“Copy 1”、“Copy 2”以及“Copy 3”的光盘的内容整体引入本文作为参考。
长表格
本申请文件中包含11个长表格:表3、表4、表5、表8、表10、表12A、表12B、表12C、表13A、表13B和表14。长表3为Ensembl基因和启动子区域(定义为Ensembl注释的转录起始位点周围的-5kb至+1kb)的完整DNA甲基化和基因表达数据,并作为文件“002806-067741-P2_TABLE 3.txt”在本文中以在CD上的电子格式提供。长表4为35个细胞系和31,929个Ensembl基因启动子区域的DNA甲基化数据,按所有ES细胞系中表观遗传变异(BF栏)的降序排列,并作为文件“002806-067741-P2_TABLE 4.txt”在本文中以在CD上的电子格式提供。长表5为35个细胞系和15,079个Ensembl基因的基因表达数据,按所有ES细胞系中转录变异(BG栏)的降序排列,并作为文件“002806-067741-P2_TABLE 5.txt”在本文中以在CD上的电子格式提供。长表8为有助于谱系(lineage)记分卡(scorecard)预测的各测量的详细信息表,并作为文件“002806-067741-P2_TABLE 8.txt”在本文中以在CD上的电子格式提供。长表10为用于构建和验证谱系记分卡的基因表达数据表,并作为文件“002806-067741-P2_TABLE10.txt”在本文中以在CD上的电子格式提供。长表12A、表12B和表12C为用于记分卡、或分析和方法的目标基因的列表,表12A示出了按优先顺序的降序列出的基因,所述基因基于人多能细胞系中DNA甲基化变异参比集的变异性而鉴定;表12B示出了按优先顺序的降序列出的基因,所述基因基于人多能细胞系中基因表达变化参比集的变异性而鉴定;表12C示出了按优先顺序降序列出的基因,所述基因使用统计排名和信息检索方案从文献中检索出,表12A和/或表12B和/或表12C中的基因可用于确定记分卡,并分别作为文件“002806-067741-P2_TABLE 12A.txt”、“002806-067741-P2_TABLE 12B.txt”和“002806-067741-P2_TABLE12C.txt”在本文中以在CD上的电子格式提供。长表13A和表13B为列为“包括基因”的目标基因的可选列表的表,其可用于DNA甲基化和基因表达测量以确定记分卡和谱系记分卡,并分别作为文件“002806-067741-P2_TABLE 13A.txt”和“002806-067741-P2_TABLE13B.txt”在本文中以在CD上的电子格式提供。长表14为目标基因的其它可选列表的表,其为表13A基因的亚组,可用于DNA甲基化和基因表达测量以确定记分卡和谱系记分卡,并作为文件“002806-067741-P2_TABLE 14.txt”在本文中以在CD上的电子格式提供。将分别作为文件“002806-067741-P2_TABLE 3.txt”,“002806-067741-P2_TABLE 4.txt”、“002806-067741-P2_TABLE 5.txt”、“002806-067741-P2_TABLE 8.txt”、“002806-067741-P2_TABLE10.txt”,“002806-067741-P2_TABLE 12A.txt”、“002806-067741-P2_TABLE 12B.txt”、“002806-067741-P2_TABLE 12C.txt”、“002806-067741-P2_TABLE 13A.txt”、“002806-067741-P2_TABLE 13B.txt”、以及“002806-067741-P2_TABLE 14.txt”在本文中以在CD上的电子格式提供的表3、表4、表5、表8、表10和表12A-12C、表13A-13B及表14整体引入本文作为参考。请参考本申请文件末尾的访问说明。
背景技术
再生医学的一个目标是可以将多能细胞转化成其它细胞类型以用于组织的修复与再生。人多能细胞系表现出类似于早期胚胎的发育可塑性(developmental plasticity)水平,能在体外分化成全部3个胚层(Rossant,2008;Thomson等,1998)。同时,能将这些多能细胞系维持在未分化状态中很多代(Adewumi等,2007)。这些独特的特征使得人类胚胎干(ES)细胞和人类诱导多能干(iPS)细胞成为生物医学研究中极具前途的工具(Colman和Dreesen,2009)。已将ES细胞系建立为用于剖析单基因人类疾病细胞学基础的模型系统。例如,已证明携带引起脆性X染色体综合征(fragile X syndrome)的突变的ES细胞在体外分化时重现(recapitulate)了这一疾病的表型方面(Eiges等,2007)。另外,已将人类ES细胞衍生的运动神经元用于开发家族性肌萎缩侧索硬化症(ALS)(familial amyotrophiclateral sclerosis)的体外模型,所述体外模型兼容药物筛选(Di Giorgio等,2008)。限定(defined)重编程方法的发现(Takahashi和Yamanaka,2006)及其在为患者量身培养的iPS细胞系的衍生上的用途(Dimos等,2008;Park等,2008)已进一步扩展了多能细胞用于单基因疾病建模的效用,使得能够进行脊髓性肌萎缩症(spinal muscular atrophy)(Ebert等,2009)和家族性自主神经功能异常(familial dysautonomia)(Lee等,2009)的体外研究。
直到最近,只有少数人类多能细胞系被广泛用于生物医学研究。由于这个原因,研究人员主要依赖这些容易获得且充分表征的细胞系(如,Thomson、bresigen和HUES 1-17细胞系)。此外,美国在ES细胞研究上的资金限制进一步限制了被广泛使用的细胞系的数量。结果,研究者使用他们可得到的系来用于他们感兴趣的应用,并且很少有诊断的需要,所述诊断可以预测细胞系在给定测试中的表现。
胚胎干细胞在培养的极长时间内维持多能性这一独特的能力,使它们成为用于细胞疗法的主要候选者。胚胎干(ES)细胞分化涉及表观遗传机制以控制系特异性基因表达模式。基于ES细胞的疗法给许多目前难治的遗传性、外伤性、和退行性障碍障碍的治疗带来了很大的希望。然而,这些治疗策略不可避免地涉及人类细胞的引入,所述人类细胞已离体(ex vivo)保持、处理、和/或分化以提供所需的前体细胞(如,成体干细胞(somatic stemcells)等),从而使如下操作的可能性提高:异常细胞(如,癌细胞或对癌症具有易感性的细胞,所述癌症可能在这样的处理和分化方案期间发生)被连同所需的多能干细胞或它们的分化后代(differentiated progeny)一起给予。
然而,最近的一些事态发展大大增加了对能预测多能人细胞系行为的诊断的需要。首先,许多实验室继续着人类ES细胞系的衍生和美国对资金限制的取消很大程度上增加了研究者可选的ES细胞系的数量。另外,很明显,并不是所有的人类ES细胞系都同样适合每一个目的(Osafune等,2008)。这表明,任何新的研究项目都应对最适合于感兴趣的应用的细胞系进行深思熟虑且有见地的选择。
将来自患者的体细胞重编程为iPS细胞的因子的发现也导致研究团体可得到的和使用的多能细胞系的数量进一步增加。当研究者为他们所感兴趣的应用聚集起现有的细胞系或衍生出新的细胞系时,很少有关于如何选择最适于使用的细胞系的信息或指导。
人类多能干细胞系的进一步应用可能会包括常见疾病的研究,所述疾病由人的基因型与其环境间复杂的相互作用而形成(Colman和Dreesen,2009)。另外,多能细胞将最终作为用于移植医学的细胞和组织的再生资源(Daley,2010)。这些多能干细胞的这两种建议应用都需要选择能可靠地、可重复地、高效且稳定地分化成疾病相关细胞类型的细胞系。然而,已报道了大量变异的效率,各种人类ES细胞系以所述效率分化成不同的三胚层衍生品系(Di Giorgio等,2008;Osafune等,2008)。关于多能干细胞系间变异的功能性后果的担忧受iPS细胞系的研究进一步推动。具体而言,已报道iPS细胞在数百个基因的表达方面(Chin等,2009)、在它们的全基因组DNA甲基化模式方面(Doi等,2009)以及在它们分化成运动神经元谱系的能力方面(Hu等,2010)上集体偏离ES细胞。相反,也报道了在某些情况下iPS细胞能与ES细胞一样有效地分化(Boland等,2009;Miura等,2009;Zhao等,2009)、以及已公开的iPS细胞的基因表达标记(gene expression signature)可能无法重现(Stadtfeld等,2010)。在人类ES和iPS细胞系能够广泛部署为用于疾病建模或移植疗法的工具之前,必须解决这些分歧。尤其是,为了提供能对细胞系与细胞系间的变异进行鉴定的基线以及能对多能细胞种类间进行系统比较(例如,ES细胞系与iPS细胞系;携带特定突变的iPS细胞系与不携带该突变的iPS细胞系;通过不同重编程方案衍生来的iPS细胞系),有必要建立高质量多能细胞系间正常变异的参比(reference)。
因此,在本领域存在对如下的需要:新的、有效力且有效率的用于多能干细胞监控和验证的方法;以及用于确定一种多能干细胞系相比其它多能干细胞而言其正常变异范围的方法;和在多能干细胞使用(例如,在治疗性给药中以排除异常细胞(如,癌细胞或对癌症具有易感性的细胞)的给予;或在疾病建模、药物开发和筛选以及毒性分析上的用途)前确定其安全谱和分化倾向(differentiation propensity)的有效力且有效率的方法。
发明内容
本发明针对就干细胞的总体质量和分化能力以及其可能的恶性增长倾向方面对其进行快速且相对廉价的筛选的系统和方法。本发明的系统和方法提供了高通量筛选系统,所述高通量筛选系统能快速鉴定和选择细胞,在一些情况下,能自动选择可适于进一步使用的细胞或用于特别效用的特定细胞。本发明涉及多能干细胞(包括诱导多能干细胞(iPSC))表征的方法,在所述方法中,自然分化倾向分析对于特定细胞系在定向分化(directed differentiation)的体制和范式(regimines and paradigms)中将如何表现具有高度预测性。
目前,现有的方法不能预测多能干细胞系在给定的定向分化范式中将如何表现。如本文所公开的方法和系统提供了相比当前现有的和广泛使用的系统(如畸胎瘤(Teratoma)形成,所述系统使用起来繁琐、耗时且昂贵从而阻止这些方法用于干细胞的大规模表征)而言更为优越的多能干细胞表征系统。例如,仅是重编程因子沉默的分析或者畸胎瘤形成的使用不能预测细胞系在定向分化中将如何表现,这些方法也不能鉴定次优(suboptimal)的细胞系。本方法和系统不仅更快速、更便宜且适于自动化,它们提供强健的多能干细胞的表征,其在鉴定合适或不合适细胞和克隆上比当前的金标准方法(例如,使用畸胎瘤形成)明显更灵敏,并能用于鉴定最优多能干细胞以及用于对不能适当分化的干细胞系的鉴定(如,分化低效的干细胞或具有差的多能干细胞表现的细胞)。因此,如本文所公开的方法、系统和试剂盒提供了快速、廉价且定量的用于对多能干细胞系进行表征的手段,所述手段相比传统方法在预测所述细胞的分化能力上非常有用,并能鉴定可能不合适的干细胞系(例如因成为恶性肿瘤细胞系的高易感性(predisposition)的原因而不合适)。
因此,如本文所公开的方法和系统使得能够预测出被分析的多能干细胞的分化效率。例如,已证明所述方法和系统对于多能干细胞系沿特定谱系的分化(例如,诸如运动神经元谱系这样的神经元谱系)具有高度预测性。如本文所公开的方法和系统具有广泛的效用,并能用于前瞻性预测给定多能干细胞将如何沿着任何所需的谱系(例如,造血谱系、内胚层谱系、胰腺谱系等)进行分化。
所公开的方法和系统是以新型系统的开发为基础,所述新型系统是基于确定基因集的基因表达,该新型系统能以高通量的方式来对所选的干细胞特征进行筛查。另外,所述新型系统也以确定基因集的DNA甲基化测定为基础。所述用于基因表达和DNA甲基化的基因集可为任何预先确定基因集(如本文所公开的),并包括但不限于例如谱系标志物基因、以及致癌基因(oncogenes)和肿瘤抑制基因等。所述方法和系统进一步允许结合所获得的数据自动使得能对合适的细胞或克隆进行选择。具体而言,所述系统依赖功能基因组学数据,如翻译后修饰、基因表达数据、DNA甲基化、以及表观遗传修饰和分化标志物,这样以使偏离功能基因组学数据(包括DNA甲基化、表观遗传修饰、翻译后修饰和分化标志物表达模式)正常范围的细胞能被排除,而使落入正常范围之内的细胞能被选择为进一步所用。将统计分析方法用于使所述系统自动化。在一些实施方式中,所述功能基因组学数据为DNA甲基化。在其它实施方式中,例如,所述功能基因组学数据为如下组蛋白和非组蛋白(包括所述蛋白的规范(canonical)蛋白和变异体)的翻译后修饰中的任何一种或它们的结合:甲基化、泛素化(ubiquitination)、磷酸化、糖基化、SUMO化、乙酰化、S-亚硝基化或亚硝基化、瓜氨酸化(citrullination)或脱亚胺化(deimination)、类泛素化(neddylation)、OClcNAc、ADP核糖基化、羟基化、fattenylation、ufmylation、异戊烯化、豆蔻酰化(myristoylation)、S-棕榈酰化(S-palmitoylation)、酪氨酸硫酸盐化(tyrosine sulfation)、甲酰化和羧化。在一些实施方式中,所述功能基因组学数据(如,甲基化和/或翻译后修饰)由基因序列、以及小非编码RNA和染色质的非共价结构修饰(如,凝聚(condensation)和去凝聚)确定。
表观遗传修饰和功能基因组修饰(functional genomic modifications)(如甲基化差异)或是与例如恶性细胞生长有关。本发明提供了甲基化模式的正常范围,以使本发明的系统能筛选出离群(outlier)细胞并因此有例如恶性生长倾向的细胞。
筛查所需细胞分化标志物组使得能够选择有发展成所需组织潜能的克隆。例如,可筛查发育成中胚层、内胚层和外胚层谱系的标志物。如果干细胞不符合用于专能(multipotent)细胞(表达适当的标志物组)的预先确定参数,可将其舍弃。
人多能干细胞的长期增殖和分化潜能表明,它们能产生大量用于疾病建模和移植疗法的各种细胞类型。然而,在可将胚胎干(ES)细胞或诱导多能干(iPS)细胞放心地用于治疗应用或疾病建模、或在药物筛选或毒性分析中使用之前,必须要了解多能细胞系间变异的程度。为获得对此类变异的全面了解,本发明人对31种人ES和iPS细胞系进行了全基因组DNA甲基化和转录分析,并定量它们的体外分化倾向。
为了确立多能干细胞系中所存在变异的性质和程度,本发明人对19种ES细胞系、12种iPS细胞系和6种原代成纤维细胞系进行了3种基因组规模分析。所述3种分析包括通过基因组规模的亚硫酸氢盐测序而得的DNA甲基化图谱(Gu等,2010;Meissner等,2008)、使用高通量微阵列而得的基因表达谱、以及利用拟胚体(embryoid bodies)中代表500个基因的转录本的定量分化分析。
本发明人证实了在多种人ES和iPS细胞系中DNA甲基化和基因转录谱的全基因组分析的使用,并提供了新发现的多能干细胞系间常见变异的参比。本发明人使用DNA甲基化和基因转录谱的全基因组分析以提供“谱系记分卡”,所述谱系记分卡可用于预测任何多能细胞系的分化倾向和效能。本发明人还证明了人ES细胞显示出变异,而iPS细胞在相似位点位点表现出变异。本发明人无法检测能精确区分人ES细胞和人iPS细胞的单基因位点。因此,依赖多标志物模式系统的发现对筛选对预期目的有用的干细胞很重要。
尤其是,本发明人已证实了从多个多能干细胞群(populations)中采集数据的方法,该方法提供了多个不同多能干细胞群中DNA甲基化水平和/或基因表达水平正常变异的参比水平,所述参比水平可用于预测各多能干细胞群(如,干细胞系)的表现,并为不同种类多能干细胞间(如,ES细胞与iPS细胞、或iPS细胞与部分诱导iPS细胞等)的系统比较提供了平台。
在一些实施方式中,通过预测出哪些多能干细胞最适宜分化成例如运动神经元,以及通过对ES细胞系和iPS细胞系进行定量比较,本发明人证明了本发明的方法和系统的效用。这一比较证明,并不存在能够用于通用地区分ES细胞系和iPS细胞系的DNA甲基化或转录的特定变化。因此,本发明人证明,数据集(本文称为“记分卡”)以及生物信息学数据工具的使用使得能够使用基因组分析对人多能干细胞系(如iPS细胞系和胚胎细胞系)进行高通量表征。
因此,本发明人已发现了有效率且有效力的方法、系统和试剂盒,所述方法、系统和试剂盒可用于验证多能干细胞群以确定不同多能细胞群间的变异性,从而预测它们的治疗效用和安全谱(例如,对多能干细胞群是否对于不断自我更新具有易感性以及是否具有恶性转化的高潜能进行测定,如果将多能干细胞用于治疗用途来进行移植时,所述测定是非常重要的),并使得能够预测多能干细胞群分化潜能(所述多能干细胞系将有效地分化成为的谱系和发育途径)。同样,如本发明所公开的方法、系统和试剂盒使得能够选择具有理想特征的多能干细胞(例如,对具有类似于其它多能干细胞特征的多能干细胞进行正向选择(positively select));或具有最适宜分化成所需细胞类型的易感性(predisposition)或最适宜沿特定细胞谱系分化的倾向的多能干细胞;或者可选的,使得能够逆向选择(negatively select)(如,鉴定并舍弃)有不理想特征的多能干细胞(如,具有发展成癌细胞的易感性的细胞)的方法。
因此,本发明涉及用于有效力且有效率的多能干细胞和/或前体细胞监测和验证的方法、系统和试剂盒;和对适于特定应用(如,用于新型治疗方法,或用于沿特定谱系分化)的多能干细胞进行鉴定的方法、系统和试剂盒,所述方法包括在治疗用药前对多能干细胞进行监测和/或验证以排除异常细胞的引入(例如,避免给予会成为癌细胞多能干细胞系或不可能沿具体期望的谱系进行分化的细胞)。
具体而言,根据本发明的一些方面,申请人证明,可就选自于如下的至少两个数据集对多能干细胞进行监测,以使多能干细胞的特征能得以确定,并预测出哪种多能干细胞系可能导致干细胞起源的癌症:(i)通过特定基因(如致癌基因、肿瘤抑制基因和发育基因(development genes))的启动子甲基化对特定基因的表观遗传沉默的鉴定;(ii)对基因表达的鉴定,例如发育基因和谱系标志物基因;以及(iii)沿不同谱系分化的分化倾向。例如,能选出具有癌症特异性的启动子DNA超甲基化(hypermethylation)的细胞,在所述细胞中,可逆的基因抑制被永久沉默代替,将细胞锁定成永久的自我更新状态,从而使细胞具备发生后续恶性转化的易感性。
在一个实施方式中,本发明通常涉及用于就所需用途对多能干细胞系的功能性和适用性进行预测的方法和大量分析。在一些实施方式中,为了所需用途,将至少1种、或至少2种或至少3种干细胞分析单独用于或以任意组合用于对多能干细胞系的功能性和适用性进行预测。在一些实施方式中,一种分析为表观遗传谱(epigenetic profiling)(例如,评估具体限定的基因集的基因甲基化),以测定所述多能干细胞系中所活化的基因。在一些实施方式中,第二种分析为分化分析以测定所述多能干细胞系沿特定谱系分化的倾向。在一些实施方式中,所述分析为基因表达分析(例如,全基因组基因表达分析)以测定细胞分化相关基因的基因表达模式。
在一些实施方式中,首先进行所述表观遗传谱,然后进行关于分化的基因表达分析。在一些实施方式中,先进行用于分化相关基因的基因表达分析,然后进行表观遗传标志物谱。在一些实施方式中,仅对使用第一种筛选确定在正常参数内的细胞进行第二种筛选,以提高效率并降低进行分析的成本。
另一方面涉及参比数据集(本文中称为“记分卡”),所述数据集是指一些不同的多能干细胞经由本发明3种联合分析而来的结果的平均数据或其它聚合数据。本领域技术人员可用所述参比数据(构成“记分卡”)来比较(例如使用计算机算法或软件)感兴趣的多能干细胞系与正常功能良好的干细胞。参比“记分卡”的比较可用于有效力地并准确地预测多能干细胞对于给定应用的效用、以及感兴趣的多能干细胞系(例如,ES细胞系或iPS细胞系)的任何具体特征。因此,如本文所公开的方法、分析和记分卡可用于鉴定干细胞的具体特征,从而测定它们是否适合于下游应用,例如,是否适合于医疗用途、药物筛选、毒性分析、分化为所需细胞谱系等。
具体的实施方式提供了用于鉴定、筛选、选择或富集优选多能干细胞的方法,所述方法包括:在多能干细胞中对(i)具有超甲基化DNA启动子的基因是否存在进行鉴定,或对特定甲基化目标基因的甲基化状态相比正常变异而言具有统计学显著差异(升高或降低)的基因进行鉴定,并对(ii)特定目标基因(例如,发育基因和/或谱系标志物基因)的基因表达水平和(iii)沿不同谱系分化的分化倾向进行鉴定,从而鉴定出具有期望特征的多能干细胞系。
本发明的其它方面提供了用于对干细胞(例如多能干细胞、专能干细胞、单能(unipotent)干细胞、或成体干细胞)或终末分化细胞(terminally differentiated cell)群进行验证和/或监测的方法,例如,但不限于前体细胞、胚胎干(ES)细胞、成体干细胞、癌干细胞、祖细胞、诱导多能干(iPS)细胞、部分诱导多能干(iPS)细胞、重编程细胞、直接重编程细胞等,所述方法包括对下列中的至少一种进行筛选或监测:目标甲基化基因的DNA甲基化状态;目标基因的表达水平;和向外胚层、中胚层和内胚层分化的倾向,从而预测所述多能干细胞系是否可能会进行恶性转化,以及是否具有沿期望或特定发育途径分化并分化成特定细胞谱系的能力。
本发明的一个实施方式提供了用于就特定指征对多能干细胞系或前体细胞群进行验证和选择的方法,所述方法包括(i)使用如本文所公开的定量分化分析对多能干细胞群的分化潜能进行测量;以及(ii)选择具有中等效率或高效率地沿期望细胞谱系分化或分化成期望细胞类型的多能干细胞群;(iii)对多能干细胞群中DNA甲基化目标基因集的DNA甲基化进行测量,并进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化水平的比较;然后(iv)选择相比参比DNA甲基化水平而言在所述目标基因的甲基化上无统计学显著量差异的多能干细胞系;还任选地进行步骤(v)和(vi),其中,步骤(v)包括对所述多能干细胞系中目标基因的表达水平进行测量,并进行所述基因表达水平数据与相同目标基因的参比基因表达水平的比较;以及步骤(vi)包括选择相比参比基因表达水平在所述目标基因的基因表达水平上无统计学显著量差异的多能干细胞系。在一些实施方式中,对多能干细胞所进行的选择首先基于沿期望细胞谱系分化或向期望细胞类型分化、其次基于所述多能干细胞中基因的DNA甲基化或表达水平,以逆向选择(例如,舍弃)具有不需要特征的多能干细胞(例如,具有致癌基因和/或肿瘤抑制基因异常(升高或降低)表达的多能干细胞)。仅作为示例,可舍弃具有低的致癌基因甲基化或高的致癌基因表达的细胞,和/或舍弃具有高的肿瘤抑制基因甲基化或高的肿瘤抑制基因基因表达的细胞。在可选的实施方式中,可舍弃具有高的发育基因和/或谱系标志物基因甲基化的细胞,所述发育基因和/或谱系标志物基因在期望细胞(所述多能干细胞将要分化成的细胞)中正常表达。
本发明的一个方面涉及多能干细胞性能参数的记分卡,所述记分卡包含:(i)第一数据集,包含来自至少5种多能干细胞群的多个DNA甲基化目标基因的DNA甲基化水平;(ii)第二数据集,包含来自至少5种多能干细胞群的多个目标基因的基因表达水平;以及(iii)第三数据集,包含来自至少5种多能干细胞群的向外胚层谱系、中胚层谱系和内胚层谱系分化的分化倾向水平。在一些实施方式中,所述多个参比DNA甲基化基因为至少约1000个参比DNA甲基化基因、或至少约2000个参比DNA甲基化基因;或者在一些实施方式中,为全基因组的DNA甲基化状态。在一些实施方式中,所述参比DNA甲基化基因为选自于由如下基因所组成的组中的任何基因:癌基因(cancer gene)、致癌基因、和肿瘤抑制基因,谱系标志物基因以及发育基因。
在一些实施方式中,所述DNA甲基化目标基因为选自于由如下基因所组成的组中的任何一种基因或其任意组合:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1和TF。
在一些实施方式中,所述记分卡的第一数据集和第二数据集与数据存储设备(例如,数据存储设备,所述数据存储设备为位于计算机设备上的数据库)相连接。
在一些实施方式中,将至少15种多能干细胞系用于生成所述记分卡的第一数据集或第二数据集或第三数据集。在一些实施方式中,第一数据集、第二数据集或第三数据集由选自于下列组中的至少5种以上、或至少6种、或至少7种、或至少8种、或至少9种、或至少10种、或至少11种、或至少12种、或至少13种、或至少14种、或至少15种、或至少16种、或至少17种、或至少18种、或所有19种多能干细胞获得:HUES64、HUES3、HUES8、HUES53、HUES28、HUES49、HUES9、HUES48、HUES45、HUES1、HUES44、HUES6、H1、HUES62、HUES65、H7、HUES13、HUES63和HUES66。
在一些实施方式中,用于生成所述记分卡数据集的多能干细胞群为哺乳类动物的多能干细胞群(如人多能干细胞群)、或诱导多能干(iPS)细胞群、或胚胎干细胞群、或成体干细胞群(adult stem cell populations)、或自体(autologous)干细胞群、或胚胎干(ES)细胞群。
在一些实施方式中,可将如本文所公开的记分卡与感兴趣的多能干细胞群的DNA甲基化水平、基因表达水平和分化倾向水平进行比较,并可通过对最适宜沿某一谱系分化和/或具有不需要特征(例如具有发展成癌细胞易感性的多能干细胞群)的倾向进行预测而其用于验证和/或预测多能干细胞群的表现。因此,在一些实施方式中,可将所述记分卡用于进行如下选择的方法中:例如,正向选择感兴趣且具有所需特征(如,沿特定谱系的高分化潜能)的多能干细胞群,和/或逆向选择具有不需要特征的细胞(例如,具有发展成癌细胞易感性的细胞)。
本发明的另一方面涉及用于生成多能干细胞记分卡的方法,所述方法包括:(i)对多个多能干细胞群中的目标基因集中的DNA甲基化进行测量;(ii)对所述多种多能干细胞系中的第二目标基因集中的基因表达进行测量;以及(iii)对所述多种多能干细胞系的分化潜能进行测量。在一些实施方式中,可将生成多能干细胞记分卡(score card)的方法用于生成如下记分卡(scorecard):所述记分卡包含来自多种多能干细胞系(例如,至少5种、或至少6种、或至少7种、或至少8种、或至少9种、或至少10种、或至少15种、或至少20种、或至少30种、或至少40种或多于40种的不同多能干细胞群)的正常DNA甲基化变异值、正常DNA基因表达变异值以及正常分化倾向值。
本发明的另一方面涉及用于对多能干细胞群进行选择的方法,所述方法包括:(i)对多能干细胞群中DNA甲基化目标基因集的DNA甲基化进行测量,并进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化水平的比较;(ii)对多能干细胞群的分化潜能进行测量,并进行所述分化潜能数据与参比分化潜能数据的比较;以及(iii)对多能干细胞系进行选择,所述多能干细胞在所述目标基因的甲基化上相比参比DNA甲基化水平而言不具有统计学显著量差异,并在向中胚层、外胚层和内胚层谱系分化的倾向上相比参比分化潜能而言不具有统计学显著量差异。
在一些实施方式中,用于对多能干细胞群进行选择的方法进一步包括:(i)对多能干细胞系中第二目标基因集的基因表达水平进行测量,并进行所述基因表达水平数据与相同目标基因的参比基因表达水平的比较;以及(ii)对多能干细胞系进行选择,所述多能干细胞在所述目标基因的基因表达水平上相比参比基因表达水平而言不具有统计学显著量差异。
本发明的一个方面涉及用于生成多能干细胞的质量保证记分卡(qualityassurance scorecard)的计算机系统,所述计算机系统包含(a)至少一个存储器,所述存储器含有包含如下步骤的至少一个程序:(i)接收多能干细胞系中DNA甲基化目标基因集的DNA甲基化数据,并进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化水平的比较;(ii)接收多能干细胞系的分化潜能数据,并进行所述分化潜能数据与参比分化潜能数据的比较;(iii)基于DNA甲基化数据与参比DNA甲基化参数的比较、以及分化倾向与参比分化倾向数据的比较,生成质量保证记分卡,以及(b)运行所述程序的处理器。
在一些实施方式中,所述系统的程序进一步包含如下步骤:(i)接收多能干细胞系中第二目标基因集的基因表达数据,并进行所述表达数据与相同第二目标基因集的参比基因表达水平的比较;以及(ii)基于所述DNA甲基化数据与参比DNA甲基化参数的比较、以及所述分化倾向与参比分化数据的比较、以及所述基因表达数据与参比基因表达水平的比较,生成质量保证记分卡。
在本发明所有方面的一些实施方式中,所述DNA甲基化目标基因具有可变甲基化(variable methylation),并在一些实施方式中,所述DNA甲基化目标基因选自如下基因中的任何一种基因及其所有组合:癌基因、致癌基因、肿瘤抑制基因、发育基因和谱系标志物基因。在一些实施方式中,所述DNA甲基化目标基因选自于由如下基因所组成的组:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1和TF。
在本发明所有方面的一些实施方式中,所述参比DNA甲基化水平为参比多能干细胞群中DNA甲基化目标基因的正常甲基化变异水平。在一些实施方式中,所述参比DNA甲基化水平(例如,DNA甲基化目标基因的正常甲基化变异水平)由多种不同多能干细胞群(例如,至少2种、或至少3种、或至少4种、或至少5种、或至少6种、或至少10种不同的多能干细胞群)的DNA甲基化目标基因的甲基化水平变异生成。在一些实施方式中,其中,感兴趣的多能干细胞中DNA甲基化目标基因的甲基化水平落入参比DNA甲基化水平之外,例如,相比参比DNA甲基化水平,DNA甲基化水平统计学显著升高或显著降低,这可分别说明DNA甲基化基因的表观遗传沉默增加或减少。
在一些实施方式中,其中,所述DNA甲基化目标基因为致癌基因,对于该致癌基因,相比于参比DNA甲基化水平而言统计学显著的甲基化水平降低可表明所述致癌基因的表观遗传沉默的降低和抑制的缺乏,还可表明所述多能干细胞具有恶性转化为癌细胞的易感性。或者,在一些实施方式中,其中,所述DNA甲基化目标基因为肿瘤抑制基因,对于该肿瘤抑制基因,相比于参比DNA甲基化水平而言统计学显著的甲基化水平升高可表明所述肿瘤抑制基因的表观遗传沉默增加和表达抑制增加,还可表明所述多能干细胞具有恶性转化为癌细胞的易感性。
在一些实施方式中,其中,所述DNA甲基化目标基因为发育基因或谱系标志物基因,对于该发育基因或谱系标志物基因,相比参比DNA甲基化水平而言统计学显著的甲基化水平升高可表明所述发育基因或谱系标志物基因的表观遗传沉默增加和表达抑制增加,还能预测出所述多能干细胞沿发育途径(在所述发育途径中所述发育基因正常表达)进行分化的效率低、或者向表达所述谱系标志物基因的细胞类型分化的效率低。相反地,在实施方式中,其中,所述DNA甲基化目标基因为发育基因或谱系标志物基因,对于该发育基因或谱系标志物基因,相比参比DNA甲基化水平而言统计学显著的甲基化水平降低可表明所述发育基因或谱系标志物基因的表观遗传沉默减少以及表达抑制减少,还能用于预测出所感兴趣的多能干细胞沿发育途径(在所述发育途径中所述发育基因正常表达)进行分化的效率高或最佳、和/或向表达所述谱系标志物基因的细胞类型分化的效率高。
在一些实施方式中,所述系统进一步包含报告生成模块,所述报告生成模块用于基于所述多能干细胞群的质量来生成干细胞记分卡报告(scorecard report)。在一些实施方式中,所述系统包含存储器,其中,所述存储器进一步包含数据库。在一些实施方式中,所述数据库以分层方式(hierarchical manner)排列DNA甲基化基因集,例如其中,所述数据库将感兴趣的多能干细胞的分化倾向以分层方式排列成不同谱系。在一些实施方式中,所述数据库可以分层方式排列基因表达数据。在一些实施方式中,系统的存储器经由网络(例如,广域网或全球性的网络)与第一计算机连接。
在一些实施方式中,所述记分卡报告提供了对所述多能干细胞群适合的用途或应用的指示(indication),或在其它实施方式中,提供了对所述多能干细胞系不适合的用途或应用的指示。
在一些实施方式中,所述参比DNA甲基化水平为多个多能干细胞中DNA甲基化目标基因的正常甲基化变异范围。在一些实施方式中,所述参比基因表达水平为多个多能干细胞中目标基因的正常基因表达水平变异的范围。在一些实施方式中,DNA甲基化目标基因与基因表达目标基因相同;而在一些实施方式中,所述DNA甲基化目标基因包含所述基因表达目标基因中的至少一种以上;以及在一些实施方式中,所述基因表达目标基因包含所述DNA甲基化目标基因中的至少一种以上。
本发明的另一方面涉及用于生成多能干细胞系的质量保证记分卡的含有指令(instructions)的计算机可读介质(computer readable medium),所述指令包含:(i)接收多能干细胞系中DNA甲基化目标基因集的DNA甲基化数据,并进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化水平的比较;(ii)接收多能干细胞系的分化潜能数据,并进行所述分化潜能数据与参比分化潜能数据的比较;以及(iii)基于DNA甲基化数据与参比DNA甲基化参数的比较、以及分化倾向与参比分化数据的比较,生成质量保证记分卡。在一些实施方式中,所述计算机可读介质进一步包含如下指令:(i)接收多能干细胞系中第二目标基因集的基因表达数据,并进行所述表达数据与相同第二目标基因集的参比基因表达水平的比较;以及(ii)基于DNA甲基化数据与参比DNA甲基化参数的比较、分化倾向与参比分化数据的比较、以及基因表达数据与参比基因表达水平的比较,生成质量保证记分卡。
本发明的另一方面涉及用于对多能细胞的多种特性进行表征的分析,所述分析包含如下分析中的至少2种:(i)DNA甲基化分析、(ii)基因表达分析、以及(iii)分化分析。在一些实施方式中,所述DNA甲基化分析为亚硫酸氢盐测序分析、或全基因组测序分析(例如,简化表观亚硫酸氢盐测序(reduced-representation bisulfite sequencing,RRBS))。在一些实施方式中,所述基因表达分析为微阵列分析。
在一些实施方式中,所述分化分析为定量分化分析,例如,能对多能细胞分化成如下谱系中至少一种的能力进行评估的分化分析:中胚层谱系、内胚层谱系和外胚层谱系、以及神经元造血谱系。在一些实施方式中,通过使用针对中胚层、内胚层和外胚层谱系中至少一个标志物的抗体进行免疫染色或FAC分选(FAC sorting)来测定多能细胞分化成如下谱系中至少一种的能力:中胚层、内胚层和外胚层谱系。在一些实施方式中,通过将多能干细胞处于EB中至少0天后对其进行免疫染色来测定所述多能细胞分化成如下谱系中至少一种的能力:中胚层谱系、内胚层谱系和外胚层谱系。在一些实施方式中,在以下任意一处对所述多能细胞分化成中胚层谱系、内胚层谱系和外胚层谱系中至少一种的能力进行测定:处于EB中0天中;或处于EB中0-32天中,例如,处于EB中至少1天、或至少2天、或至少约3天、或至少约4天、或至少约5天、或至少约6天、或至少约7天、或多于约7天,例如,处于EB中5-7天中、或处于EB中约7-10天中、或处于EB中约10-14天中、或处于EB中约14-21天中、或处于EB中约21-32天中;或处于EB中长于32天。在一些实施方式中,在处于EB中5-10天中对多能干细胞的分化能力进行测定,例如,处于EB中约7天。中胚层、内胚层和外胚层谱系的谱系标志物的实例为本领域技术人员所熟知,其包括但不限于:中胚层谱系标志物VEGF受体II(KDR)或肌动蛋白α-2平滑肌(actinα-2 smooth muscle)(ACTA2)、外胚层谱系标志物巢蛋白(Nestin)或微管蛋白(Tubulin)β3、以及内胚层谱系标志物α-feto蛋白(AFP)。在一些实施方式中,本领域技术人员能使用化学刺激或其它刺激物(例如,生长因子等)来增加分化上的时间结果比(time-to-result),并使对所述多能干细胞沿中胚层、内胚层和外胚层谱系分化的倾向进行测定中的信噪比和可变异性减低。
在一些实施方式中,所述分析为用于对多种不同多能干细胞进行分析的高通量分析,例如,使得能够对多种不同的诱导多能干细胞进行评估,所述诱导多能干细胞衍生自对从相同或不同受试者(例如,哺乳动物受试者或人受试者)中获得的体细胞进行重编程。
在一些实施方式中,可将如本文所公开的分析用于由至少一种、或多种多能干细胞群生成如本文所公开的记分卡。
在如本文所公开的所有方面的一些实施方式中,所述参比DNA甲基化水平为多能干细胞群中DNA甲基化目标基因的甲基化的正常变异范围。
在如本文所公开的所有方面的一些实施方式中,所述参比基因表达水平为多能干细胞群中目标基因的基因表达水平的正常变异范围。
本发明的另一方面涉及用于对多能干细胞系的质量进行测定的试剂盒,所述试剂盒包含:(i)用于对多个DNA甲基化基因的甲基化状态进行测量的试剂;(ii)用于对多个基因的基因表达水平进行测量的试剂;以及(iii)用于对多能干细胞向外胚层谱系、中胚层谱系和内胚层谱系分化的倾向进行测量的试剂。在一些实施方式中,所述试剂盒进一步包含如本文所公开的记分卡。在一些实施方式中,所述试剂盒进一步包含使用说明。
本文的发明者提供了研究者可以驾驭的如下清晰的路径:从患者样品开始至完全重编程(fully reprogrammed)iPS细胞,再至所选的且易管理的多能iPS细胞系集,所述细胞系集可在合理的规模中用于疾病建模。尤其是,为了确立多能干细胞系中所存在的变异的性质和程度,对19种ES细胞系、12种iPS细胞系和6种原代成纤维细胞系进行了3种基因组规模的分析。所述3种分析包括通过基因组规模的亚硫酸氢盐测序进行的DNA甲基化图谱(Gu等,2010;Meissner等,2008)、使用高通量微阵列的基因表达谱、以及利用拟胚体中代表500个基因的转录本的定量分化分析。
总体来讲,本发明人已将本文所公开的系统和方法用于生成由3种分析中的至少两种而来的数据,以提供至少1种记分卡,所述记分卡包含人多能干细胞系中DNA甲基化水平和基因表达水平的正常变异的参比水平。对多数基因来说,在DNA甲基化和转录水平方面,本发明人观察到几乎没有变异。然而,本发明人发现有值得注意的基因种类,所述基因种类在各多能细胞系之间表现出高变异性的DNA甲基化或转录。本发明人令人惊讶地证明对这些变异的了解很重要,并使得能够预测给定多能干细胞系的表现。另外,本发明人使用定量分化分析证明对所述多能干细胞最适宜分化成特定谱系的预测是正确的,并证明每一多能干细胞系对于分化成给定发育谱系而言具有其自己特定的且可重现的倾向。重要的是,本发明人还证明可将对分化倾向的了解用于精确预测每一细胞系在由Boulting及其同事独立进行的定向分化(directed differentiation)实验中的效率。总之,本发明人已将这3种分析(DNA甲基化、基因表达谱和定量分化分析)的结果结合,以产生“谱系记分卡”,任何人都可使用所述谱系记分卡来预测特定ES细胞系或iPS细胞系在给定应用中的效用。
如本文所公开的“总结记分卡(summary score card)”包含“偏离记分卡(deviation scorecard)”和“谱系记分卡”,所述偏离记分卡提供了人多能细胞系中正常变异的参比。在偏离记分卡中,对分析过的多数基因来说,在DNA甲基化和转录水平方面,本发明人观察到几乎没有变异。然而,本发明人发现有值得注意的基因种类或子集(subset),其在各细胞系之间表现出高变异性的DNA甲基化或转录。此处,本发明人证明对这些变异的了解很重要,因为其可用于对给定多能干细胞系的表现进行预测。
例如,本发明的方面涉及用于产生对多能干细胞系进行表征的2种记分卡的方法,第一记分卡(可被称为“偏离记分卡”或“多能性记分卡”)用于提供感兴趣的多能干细胞与先前建立的多能干细胞系或对照多能干细胞系进行比较的信息,并可用于鉴定相比参比多能干细胞系和/或多个参比多能干细胞系,在DNA甲基化或基因表达方面存在变异的基因的数量或%。此类记分卡用于对感兴趣的干细胞系的多能性进行鉴定,以及对所感兴趣的干细胞系是否有癌基因的非典型性(atypical)基因表达或DNA甲基化(可使所感兴趣的干细胞在稍后的时间点具有异常增殖和形成癌症的易感性)进行鉴定。第二记分卡(本文中称为“谱系记分卡”)用于对所感兴趣的多能干细胞的分化潜能进行定量,并提供了相比之前建立的多能干细胞系或对照多能干细胞系,所感兴趣的多能干细胞系会以何种效率分化成所感兴趣的特定谱系的信息。
总之,可将本文所述的三种分析(单独使用或以任意组合使用)、包括所有3种分析的组合结果用于生成“总结记分卡”(例如,包含偏离记分卡和/或谱系记分卡),所述总结记分卡可被本领域技术人员用于验证多能干细胞,以及预测特定多能干细胞(例如,ES细胞系或iPS细胞系)在给定应用中的效用。
可将如本文所公开的分析配置成高通量(例如,使用多重qPCR和高通量样品处理),以产生偏离记分卡和谱系记分卡,所述偏离记分卡和谱系记分卡将能同时表征成百上千的ES和/或iPS细胞系(例如,在希望在高通量中心中表征成百上千的干细胞系的情况下),例如以测定干细胞系在用于医疗用途的药物筛选中的效用。如本文所公开的方法和记分卡的使用允许对大量干细胞系进行快速且廉价的表征,而使用传统的畸胎瘤表征方法将会非常昂贵且不现实。或者,可将如本文所公开的分析、方法、系统和记分卡以单独的方式用于加速研究,以及用于研究以解决感兴趣的研究问题,例如,可将本文所公开的分析、方法、系统和记分卡用于表征多能干细胞系,以鉴定出最适于进一步分析的多能干细胞系,从而解决感兴趣的研究问题。
附图说明
这一专利文件或申请文件包含至少1幅着有颜色的附图。经请求并支付必要的费用,这一具有彩色附图的专利或专利申请公开将由官方(Office)提供。
图1A-图1C示出了人ES细胞系的参比图谱,所述图谱横跨了多能细胞系的正常变异走廊(corridor)。图1A示出了19种人ES细胞系和6种原代成纤维细胞系的联合分层聚类(joint hierarchical clustering)。将启动子区域(各Ensembl注释的转录起始位点周围从-5kb至+1kb)的DNA甲基化水平进行平均。通过对微阵列上的所有相关探针进行平均计算各Ensembl基因的基因表达水平。在分层聚类之前,将所述2个数据集分别归一化至零均值(zero mean)和单位方差(unit variance),计算出DNA甲基化和基因表达的Euclidean距离矩阵(Euclidean distance matrices),并将2个距离矩阵进行平均。使用平均连锁(average linkage)进行分层聚类,热图(heatmaps)示出了250种基因的代表性选择。较浅的颜色表明DNA甲基化(红色)或基因表达(绿色)水平较高,较深的颜色则表明水平较低。合并后的DNA甲基化数据和基因表达数据在表3中示出。所有基因和启动子区域的列表(按照其表观遗传和转录变异水平排列)在表4和表5中示出。
图1B示出了选定的4种基因的DNA甲基化和基因表达测量的高分辨率视图。示出了启动子区域(Ensembl注释的转录起始位点周围从-5kb至+1kb)的DNA甲基化模式。左侧的各个框表示位于启动子区域内的单个CpG二核苷酸(暗红色:高甲基化;浅红色:部分甲基化;白色:完全甲基化(full methylation))。右侧的单个框使各基因归一化的表达水平可视化(深绿色:高表达;浅绿色:中等表达;白色:无表达)。示出了对4种代表性ES细胞系和1种代表性成纤维细胞系的测量。注意,DNA甲基化模式并未按比例绘制。所有高分辨率数据作为基因组浏览器通道文件(genome browser tracks)可通过增补网站http://scorecard.computational-epigenetics.org/得到。
图1C示出了19种低传代(low-passage)人ES细胞系的基因特异性DNA甲基化(左)和基因表达(右)的箱线图(Boxplots),说明表观遗传和转录参比走廊(referencecorridor)的概念。多种ES细胞系的组合数据定量了在人多能细胞系中观察到的变异,并提供了可以跟单个细胞系进行比较的参比。所述走廊横跨总计31,929个启动子区域(DNA甲基化)和15,079种基因(表达);这一图表重点关注选定的15种基因,所述基因涵盖了宽范围的不同变异水平。箱形图框对应于中心四分位数(center quartiles),黑条标记出中位数(median),须(whiskers)延伸至最极端的数据点,所述数据点不大于所述框的四分位距(interquartile range)的1.5倍。全ES细胞参比走廊可从网站http://scorecard.computational-epigenetics.org/中得到(数据未显示),以引用的方式将其整体并入本文。
图2A-图2G示出了表观遗传和转录变异靶向特异性基因并影响细胞分化。图2A示出了与ES细胞参比(19种ES细胞系平均而来)的细胞系特异性偏离(deviation)的分布,提供了对表观遗传和转录变异敏感性的基因特异性测量。直方图示出了落入各区间(interval)平均偏离水平(x-轴)的基因数量(y轴)。在顶部突出显示选定基因在各直方图内的位置。注意,DNA甲基化直方图(左)极其偏斜;为了更好地表现,已将该图表右半部的x-轴压缩了5倍,这使得在直方图的中心产生伪峰(spurious peak)。在基因表达直方图(右)中,在0处存在强峰,这是由于在所有ES细胞系中大量基因表现为0表达(因此为0变异)。
图2B示出了在DNA甲基化(左上)或基因表达(左下)方面变异最大的1,000种基因的染色体分布,说明表观遗传可变异基因而不是转录可变异基因主要位于人性染色体X和Y上。将变异性(variability)作为与ES细胞参比(19种ES细胞系平均而得)的细胞系特异性偏离来进行测量。该图表还示出了具有充足的DNA甲基化数据(右上)或基因表达数据(右下)的所有基因的染色体分布,强调所述变异最大基因的基因组位置差异不是有偏倚的测序覆盖度(biased sequencing coverage)的副作用。
图2C示出了1,000种变异最大的基因在DNA甲基化(上)和基因表达(下)方面的比较。为防止性染色体偏倚影响这一分析,将所有X-连锁基因和Y-连锁基因排除。使用Fisher精确检验(Fisher’s exact test)建立重叠的显著性。
图2D示出了1,000种变异最大的基因(以及基因启动子)在DNA甲基化(上)和基因表达(下)方面的结构和功能特征。用DAVID软件(Huang等,2007)对功能注释聚类(Functional annotation clustering)进行分析,并用EpiGRAPH网络服务(Bock等,2009)对启动子特征进行分析。图2D提供了结果的总结;全部结果在表3和表5中示出。为防止性染色体偏倚影响这一分析,将所有X-连锁基因和Y-连锁基因排除。
图2E示出了在不定向EB分化期间两种ES细胞系之间的DNA甲基化差异(左,中)和基因表达差异(右)的散点图,表明ES细胞状态(左)的DNA甲基化差异在16天EB(中)中得以维持,并与EB中的基因表达(右)呈负相关。处于多能状态(左)中的两种ES细胞系间差异甲基化(阈值:20个百分点)的那些基因在所有3个图表中突出显示(橙色:在HUES6中超甲基化,蓝色:在HUES8中超甲基化)。巨噬细胞/粒细胞特异性标志物基因CD14的位置用箭头标示出,提供了在16天EB中维持了其细胞系特异性差异甲基化的基因的实例,以及仅在其启动子不存在DNA甲基化的情况下上调的基因的实例。
图2F示出了经受确定的造血分化方案的2种ES细胞系(HUES6和HUES8)之间的表观遗传差异和转录差异。在分化方案的第0天和第18天通过克隆的亚硫酸盐测序对DNA甲基化水平进行测量。白色珠子对应于非甲基化的CpG,而黑色珠子对应于甲基化CpG。行(rows)对应于各克隆,而列(columns)对应于在CD14的启动子区域中的具体CpG。类似地,在分化方案的第0天和第18天,通过qPCR在2个独立的实验(所显示的是3个技术重复)中对CD14和另外2种巨噬细胞标志物基因(CD33和CD64)的基因表达进行测量。
图2G示出了在造血过程(TFCP2,LY6H)和神经过程(COMT,CAT)中具有已知作用的4种基因的细胞系特异性DNA甲基化和基因表达水平。各数据点表示ES细胞系(“ES”)或相应的16天拟胚体(“EB”)的DNA甲基化(x-轴)和基因表达(y-轴)水平的组合。
图3A-图3D示出了基因组图谱,检测出iPS细胞系中趋向于更高可变异性的趋势,但无iPS特异性缺陷。
图3A示出了11种iPS细胞系(“hiPSx”)、19种ES细胞系(“HUESx”或“Hx”)和6种原代成纤维细胞系(“hFibx”)的联合分层聚类,表明所有iPS细胞系与ES细胞系聚类,并且在多能细胞系中不存在明确分离为亚簇(subclusters)的情况。聚类以与图1A中相同的方式进行。含有热图和MEG3表达状态的扩充版本可从图9B中得到。
图3B示出了将19种ES细胞系的细胞系特异性偏离(x-轴)与11种iPS细胞系的细胞系特异性偏离(y-轴)进行比较的散点图,在这两种情况下,相对于ES细胞参比进行测量并对相关的细胞系进行平均。为防止细胞系与它们自身比较,当各ES细胞系针对参比进行记分时,将其暂时从ES细胞参比中移除。选定的基因用橙色突出显示,插图Venn图表使2,000种最偏离的基因(将所有ES细胞系和所有iPS细胞平均而得)间的重叠可视化。将重编程因子OCT4、SOX2和KLF4从该分析中排除,因为转基因沉默(transgene silencing)在iPS细胞系中产生伪超甲基化(spurious hypermethylation)(图9C)。带有ES细胞系和iPS细胞系中的平均细胞系特异性偏离的所有基因和启动子区域的列表在表4和表5中示出。
图3C示出了19种ES细胞系、11种iPS细胞系和6种原代成纤维细胞系的细胞系特异性偏离的箱线图,相对于ES细胞参比进行测量并对所有基因进行平均。将19种ES细胞系中的细胞系特异性偏离的分布归一化至零均值和单位方差,并将其它两种分布相应地进行尺度重标(rescaled)。(该归一化并不影响3种分布间的比较,因为使用了相同的尺度参数。)
图3D示出了性能表,该表总结了用于区分ES细胞系和iPS细胞系的3种在先发表的iPS细胞标记和3种新得到的分类子(classifiers)的预测能力。为了比较,该表还列出了3种新得到的分类子在区分ES细胞系和成纤维细胞(阳性对照)方面的性能以及3种无关紧要的分类子(阴性对照)的性能。示出的是预测准确度、灵敏度与特异性,所述预测用于对ES细胞系(真阴性,TN)中的iPS细胞系(真阳性,TP)进行鉴定,同时使被错误预测为iPS细胞系(假阳性,FP)或被错误预测为ES细胞系(假阴性,FN)的细胞系数目最小化。为了提高结果的鲁棒性(robustness),对交叉验证(cross-validation)的100次随机重复进行所有值的平均。表中轻微的数值不一致是因为将所有值四舍五入成整数。对交叉验证的分类子和已发表的标记的性能评估应该考虑测试集准确度,这使得同类型的新数据是可重现的(相同培养条件、相同分析等)。
图4A-图4B示出了利用ES细胞参比的统计学比较鉴定出ES/iPS细胞系特异性偏离。
图4A示出了19种ES细胞系和11种iPS细胞系的DNA甲基化(左)和基因表达(右)相对于ES细胞参比走廊的分布,通过箱线图说明(详情请参见图1C)。通过彩色三角形突出显示出如下ES或iPS细胞系:偏离ES细胞参比超过20个百分点和FDR低于0.1%(DNA甲基化)、或者偏离ES细胞参比的绝对log倍的变化(absolute log fold-change)大于1和FDR低于10%(基因表达)。为防止细胞系与它们自身比较,当每一ES细胞系针对参比进行记分时,将其暂时从ES细胞参比中移除。差异甲基化和表达的基因的完整列表可从网站“http://scorecard.computational-epigenetics.org/”中得到,还可从如本文所公开的表4和表5中得到。
图4B示出了偏离记分卡,该记分卡总结了在DNA甲基化(左)和基因表达(右)方面,相对于ES细胞参比的细胞系特异性离群值(outliers)的数目。作为细胞系质量的额外指示,记分卡列出受影响的谱系标志物基因的数目,其具有削弱细胞系沿某些轨迹分化的倾向的潜能(如图2E中所示的CD14)。所述表还示出了20种低传代ES细胞系中偏离基因的平均数(最后一行),提供了在低传代ES细胞系中也能观察到的范围内的数目指示。在表6中示出了这一记分卡更全面的版本,包括所有ES细胞系的数据并列出了所有受影响的基因。只有当绝对差异超过20个百分点(DNA甲基化)或绝对log倍的变化超过1(基因表达)时,认为具有FDR低于10%的差异是显著的。当使用用于细胞系选择的记分卡时,应对这些数据仔细审查以得出基因特异性偏离的证据,所述基因特异性偏离可干扰所感兴趣的应用。
图5A-图5D示出了细胞系特异性分化倾向可通过定量EB分析来进行测量。
图5A示出了用于对细胞系特异性分化倾向进行定量分析的图解概要。这一分析的主要结果为如图5B和图5D中所示的谱系记分卡。
图5B示出了谱系记分卡,该记分卡总结了低传代人ES细胞系集的细胞系特异性分化倾向。数字表示在线性标度(linear scale)上相对富集(正值)或贫化(负值)。通过如下方式计算出这些数值:进行放缓t检验(moderated t-tests),将给定ES细胞系的所有生物重复(biological replicates)与ES细胞参比(由所有其它ES细胞系的生物重复组成)进行比较;接着对与所感兴趣的细胞谱系或胚层相关的标志物基因集进行基因集富集分析(gene set enrichment analysis)(表7)。所有的列均以0为中心,以便使得在如下情况下ES细胞系将表现为0分化倾向:如果ES细胞系像所有其它ES细胞系(用于校准该分析)的平均分化那样进行分化。值应该被理解为是相对于彼此的值,数越大表明分化倾向越高,而值越低则表明分化倾向越低,但绝对值并没有测量单位,且没有直接的生物学解释。图10A中示出了代表性EB的图片;对预测子集的免疫染色验证在图10B中示出;所有标志物基因的列表可从表7中得到;构建该记分卡的基因表达数据可从表10中得到;此外,表8中还示出了单基因表达水平与谱系记分卡分化倾向之间的联系的文档。
图5C示出了ES细胞系和iPS细胞系、ES衍生EB和iPS衍生EB、以及原代成纤维细胞系转录相似性的二维多维标度图(two-dimensional multidimensional scaling map)。使用nCounter系统对500种谱系标志物基因的基因表达进行测量,并将归一化的数据投影(projected)到一个平面,以使点彼此间的距离表示它们的基因表达水平在500维空间中的距离。每个点对应单个生物重复,并使用多维标度进行所述投影。2种iPS细胞系在其形成正常EB的能力上明显受损(hiPS 15b,hiPS 29e,通过箭头突出显示,并标记为“受损EB”);1种iPS细胞系完全不能形成正常EB(hiPS 27e,通过箭头突出显示,并标记为“失败EB”),甚至在16天EB分化后依然维持了类似于多能细胞的基因表达谱。通过箭头突出显示这3种细胞系的所有生物重复,根据谱系记分卡,所有3种细胞系在分化倾向方面展现出显著的降低(图5D)。
图5D示出了谱系记分卡,该记分卡总结了人iPS细胞系集的细胞系特异性分化倾向。该记分卡由用于图5B所述的方法而得,并根据ES细胞参比进行归一化。计算对于各细胞系而言可得到的所有生物重复的分数。代表性EB的图片在图10C中示出。在图10D中示出了对谱系记分卡的特异性方面进行验证的FACS分析。
图6A-图6C示出了谱系记分卡对运动神经元分化的细胞系特异性差异进行的预测。
图6A示出了用于对体外制造运动神经元的效率的细胞系特异性差异进行测量的程序的概要。使13种iPS细胞系(参见表1)经受32天的神经分化方案,并通过细胞(对运动神经元标志物ISL1和HB9(Boulting等,共同提交)染色呈阳性的细胞)自动计数来对分化效率进行定量。所有实验至少以3个生物重复的方式进行。
图6B示出了神经谱系分化的谱系记分卡评估与体外制造运动神经元的细胞系特异性效率之间的关联(rp,Pearson相关系数;rs,Spearman相关系数)。在32天的神经分化方案终点时由ISL1阳性细胞(左)和HB9阳性细胞(右)的百分比对运动神经元效率进行测量。包含生物重复和标准误的更多细节在表9中示出。
图6C示出了3种胚层的谱系记分卡评估与体外制造运动神经元的细胞系特异性效率之间的关联(rp,Pearson相关系数;rs,Spearman相关系数)。在32天的神经分化方案终点时由ISL1阳性细胞的百分比对运动神经元效率进行测量。在图11A中示出了以HB9阳性细胞百分比进行的类似比较。包含生物重复和标准误的更多细节在表9中示出。
图7A-图7E示出了对记分卡的小修改使得能对人iPS细胞系进行高通量表征。
图7A示出了用于多维度定量ES/iPS细胞系质量和效用的记分卡的一个实施方式的总结。该表结合了来自图4B和图5D的数据,提供了对如下方面的概述:(i)与ES细胞参比的基因特异性DNA甲基化偏离;(ii)相对于ES细胞参比上调或下调的基因;以及(iii)3个胚层的定量分化倾向。
图7B示出了记分卡不同维度之间的成对相关性(pairwise correlation),这表明表现出表观遗传偏离和转录偏离的基因的数量和分化倾向的评价给ES/iPS细胞系的质量和效用提供互补(而不是多余)信息。
图7C示出了DNA甲基化分析中基因组覆盖度减少的记分卡性能的模拟。基于所有19种ES细胞系(或大小为10、5和1的随机子集)的数据,根据与ES细胞参比的平均偏离将所有基因进行排名。然后,选择前1%、5%、10%、直至90%的变异最大的ES细胞基因,并对iPS细胞系特异性偏离进行评价,如果只是就偏离对这些基因进行监测,将会检测到所述细胞系特异性偏离。这些数据表明通过关注20%最敏感的启动子区域,就能对90%的iPS细胞系特异性偏离进行检测。图12显示在转录变异最大基因上的类似关注导致检测基因表达的细胞系特异性偏离的能力的减少比在DNA甲基化方面的减少强烈得多。
图7D示出了无EB分化的记分卡性能的模拟。ES细胞系和iPS细胞系的基因表达谱使用nCounter系统而获得,并以与来自16天EB的基因表达谱相同的方式进行处理,从而产生谱系记分卡,所述谱系记分卡专门基于在正常生长条件下维持的ES/iPS细胞系的基因表达谱。该散点图使从16天EB计算而来的谱系记分卡评估(x-轴)与从多能状态计算而来的谱系记分卡评估(y-轴)之间的相关性可视化,表明二者间一致性较好,但后者中的动态范围显著减小。
图7E示出了用于高通量表征人多能细胞系的工作流程的示意性概要。以迭代方式(iterative fashion)进行细胞系的表征,从定量分化分析(可以说是最具信息性的)开始,然后只在谱系记分卡鉴定为对所感兴趣应用有用的细胞系上进行另外的表征。注意,并不是每个细胞系都同样适合于所有应用。来自当前研究的数据清楚地表明有ES级iPS细胞系(ES-grade iPS cell lines)存在。
图8A-图8D.图8A示出了当前研究所囊括的ES细胞系的代表性图像和免疫染色。
图8B示出了由RRBS获得的DNA甲基化数据的基因组覆盖度(总结)。饼图表明所述RRBS在基因启动子、CpG岛以及假定增强子方面的覆盖度。以位于各给定类型区域内的CpG处的单独观测(即,高质量测序读取)数来测量覆盖度。示出了代表性人ES细胞系(H1)的数据。
图8C示出了由RRBS获得的DNA甲基化数据的基因组覆盖度(特定位点)。UCSC基因组浏览器(UCSC Genome Browser)截图表明了处于SNAI1基因位点的RRBS覆盖度。SNAI1的启动子区域(紫色)显示出最高的CpG密度(黑色)以及最高的RRBS覆盖度(蓝色)。其它RRBS覆盖度集中于下游CpG岛(绿色)和上游调控元件(橙色)。大多数CpG丰富的区域为非甲基化的(浅蓝),而CpG贫乏的区域趋向于甲基化的(深蓝)。每个蓝色点对应一个RRBS覆盖的CpG。可看到H1和H7间的一些表观遗传变异,但从总体上,在所有示出的ES细胞系中,启动子区域都是非甲基化的。
图8D示出了19种不同ES细胞系的启动子DNA甲基化的整体比较。成对散点图(pairwise scatterplots)比较了19种ES细胞系的平均启动子DNA甲基化水平。观察到所有成对比较的相似性较高。然而,由这张图可见成对的ES细胞系间存在2类差异:(i)位于左下方接近X轴或Y轴的小而密集的点云(point clouds):这些是X染色体相关的差异,所述差异把具有广泛X失活的雌性ES细胞系与雄性ES细胞系区分开;(ii)分散于整个图的非对角点(Off-diagonal points):这些差异中的大多数位于常染色体上,并构成ES细胞系间的表观遗传差异。
图9A-图9D.图9A示出了11种iPS细胞系和6种原代成纤维细胞系的启动子DNA甲基化的整体比较。成对散点图比较了11种iPS细胞系和6种原代成纤维细胞系的平均启动子DNA甲基化水平。观察到iPS细胞系的相似性较高,而实质性差异将iPS细胞系与成纤维细胞系区分开。
图9B示出了来自DNA甲基化数据和基因表达数据联合聚类分析的结果的实例。人ES细胞系、iPS细胞系和成纤维细胞的联合分层聚类和热图。进行如图1的附图说明中所述的聚类。在“MEG3”列中,标明了MEG3非编码RNA的表达状态:“+”代表在各细胞系中表达了MEG3(MEG3表达水平≥1),而“-”代表未表达MEG3(MEG3表达水平<1)。
图9C示出了KLF4的编码区域因转基因沉默而产生的伪超甲基化。UCSC基因组浏览器截图说明了转基因沉默如何在重编程因子的内源位点处引起伪超甲基化产生。由于RRBS读段(reads)映射至基因组的方式,导致大多数病毒转基因读段位于OCT4、SOX2和KLF4的内源性位点中。对KLF4的这一现象进行说明:KLF4基因在ES细胞中大部分非甲基化(绿色),而在iPS细胞中似乎有部分甲基化(但只有在转基因部分的外显子(红色)上,而从不在非转基因部分的内显子(蓝色)上)。而且,hiPS 27e中的不完全转基因沉默(黄色)与转基因的KLF4中大幅降低的DNA甲基化水平有关。
图9D显示MEG3表达并不是与ES细胞参比的表观遗传偏离或转录偏离的强有力的预测子。对于如下细胞系,与ES细胞参比的细胞系特异性偏离的箱线图对所有基因进行平均:(i)表达MEG3非编码RNA的ES细胞系(参见图9B);(ii)未表达MEG3的细胞系(HUES1、HUES3、HUES13、HUES44、HUES45、HUES53、HUES66、H1和H7);以及(iii)6种原代成纤维细胞系。
图10A-图10D显示记分卡使得能够快速且全面地对人多能细胞系进行表征。
图10A示出了3种ES细胞系(HUES1,28代和29代;HUES8,29代和30代;H1,37代和38代)的生物重复间DNA甲基化比较的成对相关系数和散点图。另外,DNA甲基化比较包含分别生长在威斯康星大学(25代)和Cellular Dynamics(32代)的H1的2种生物重复。观察到所有成对比较的相似性较高。然而,由这些图可见成对的ES细胞系间有2类差异:(i)位于左下方接近X轴或Y轴的小而密集的点云(仅DNA甲基化),这些点对应于X染色体相关的差异,所述差异把具有广泛X失活的雌性ES细胞系与雄性ES细胞系区分开;(ii)分散于整个图的非对角点。这些差异中的大多数位于常染色体上,并构成ES细胞系间的表观遗传差异或转录差异。
图10B示出了3种ES细胞系(HUES1,28代和29代;HUES8,29代和30代;H1,37代和38代)的生物重复间基因表达比较的成对相关系数和散点图。
图10C示出了对非均质(heterogeneous)细胞群中DNA甲基化差异的最低阈值的说明。如果变异低的话,甚至细胞系间小的DNA甲基化差异也可能在统计学上极其显著。然而,这并不总是意味着具有生物学意义(biological significance)。因此,除10%错误发现率(FDR)的统计学显著阈值外,要求2种细胞系间(或1种细胞系与ES细胞参比间)的DNA甲基化差异超过20个百分点,才能被视为相关(relevant)。考虑到大多数细胞系都会表现出一定程度的异质性,存在一些能使细胞系偏离ES细胞参比超过20个百分点的方法:(i)所有细胞都表现出增高(降低)了20个百分点的DNA甲基化水平;(ii)所有细胞的20%的子集表现出增高(降低)了100个百分点的DNA甲基化水平,而剩下的80%并不显示出任何差异;(iii)如图中所示的任意组合。
图10D示出了ES细胞系与iPS细胞系在表观遗传和转录空间(space)中的相似性的示意图。左边的密度图描述了在人ES细胞中观察到的变异。2个十字形表示所有ES细胞系和iPS细胞系的(假定)平均值,这是该研究通过对20种人ES细胞系和12种人iPS细胞系进行剖析而近似得出的。右边的散点图模拟了大量人iPS细胞系的分布,该图考虑到了它们适度增加的变异(图3C)以及不能与ES细胞系区分的少数iPS细胞系的观察(图3D)。将Gaussians用于在计算机上(in silico)模拟ES细胞和iPS细胞的分布。
图11A-图11B示出了用于对偏离记分卡(基于全基因组DNA甲基化和/或基因表达数据)和谱系记分卡(基于分化中的EB中的标志物基因表达)进行计算的算法概要。图11A示出了用于对偏离记分卡(基于全基因组DNA甲基化和/或基因表达数据)进行计算的算法概要。图11B示出了用于对谱系记分卡(基于分化中的EB中的标志物基因表达)进行计算的算法概要。
图12A-图12E.图12A示出了ES细胞衍生的EB的代表性图像的实例。16天拟胚体的图像衍生自低传代人ES细胞系(用于建立谱系记分卡的参比数据集)。
图12B示出了选定的谱系标志物基因免疫染色的图像。通过免疫染色评价选定谱系记分卡的验证,并说明了5种标志物基因的蛋白染色、mRNA水平以及谱系记分卡分化倾向间具有良好的定性一致(qualitative agreement)。在4种代表性ES细胞系上进行了不定向EB分化。2天后,将EB铺到基质胶(matrigel)上,并使其再分化5天。EB分化7天后,对3个胚层的标志物基因进行免疫染色。该图显示出未分化ES细胞、处于7天的EB以及免疫染色的代表性图片。16天EB的基因表达水平使用nCounter系统获得(表10)。
图12C示出了iPS细胞系及衍生的EB的图像。用于谱系记分卡的iPS细胞系及衍生的EB的图像。
图12D示出了对内胚层标志物基因AFP的FACS分析。比较了hiPS17和hiPS 27e中通过FACS测定的AFP阳性细胞数目与16天EB中的mRNA表达水平。
图12E示出了4种ES细胞系(HUES1、HUES8、H1、H9)的平均谱系记分卡值,所述ES细胞系在有利于外胚层分化(蓝色)和中胚层分化(红色)的条件下进行分化。
图13A-图13C示出了运动神经元效率(HB9+细胞)与对于胚层的谱系记分卡倾向间的关联。
图13A示出了散点图,所述散点图显示了对细胞系特异性分化倾向(向外胚层分化)的谱系记分卡评估与定向分化效率(分化成运动神经元)间的关联。
图13B示出了散点图,所述散点图显示了对细胞系特异性分化倾向(向中胚层分化)的谱系记分卡评估与定向分化效率(分化成运动神经元)间的关联。
图13C示出了散点图,所述散点图显示了对细胞系特异性分化倾向(向内胚层分化)的谱系记分卡评估与定向分化效率(分化成运动神经元)间的关联。对于每一细胞系,通过在32天运动神经元分化方案的终点对HB9阳性细胞的百分比进行自动计数来测量所述运动神经元效率。HB9是运动神经元的高度特异性标志物,其在大多数其它神经细胞类型中均不表达。
图14A显示转录变异最大的基因的覆盖度(基因表达)减少的记分卡(类似于图7C)的性能导致检测基因表达的细胞系特异性偏离的能力的减少比在DNA甲基化方面的减少强烈得多。饱和度图表(saturation chart)示出了相对于ES细胞参比的iPS细胞系特异性偏离的量,当只关注前百分之X的基因(所述基因在ES细胞系中表现出与ES细胞参比最高的平均绝对偏离)时,就会检测出所述iPS细胞系特异性偏离的量。
图14B示出了对基因组覆盖度减小的DNA甲基化分析记分卡的性能进行评价的饱和度图(saturation plot)。图14C示出了对基因组覆盖度减小的基因表达分析记分卡的性能进行评价的饱和度图。图14B和14C的饱和度图以所有20种ES细胞系(或大小为10、5和1的随机子集)的数据为基础,根据与ES细胞参比的平均偏离将所有基因进行排名。然后,选择前1%、5%、10%、直至90%的变异最大的ES细胞基因,并对iPS细胞系特异性偏离的百分比进行计算,如果只是就偏离对这些基因进行监测,将会检测到所述iPS细胞系特异性偏离。
图15示出了一些目前使用的用于人多能细胞系质量评估的方法。所有廉价和简单的分析缺乏特异性,最严格的分析对人类则不可用。虽然,畸胎瘤被认为是对于人类的黄金标准,畸胎瘤是劳动密集型的且成本很高、强加了高的动物测试负担、并且高度依赖于合格的病理学家的评估,从而难以定量。
图16示出了使用用于不同组蛋白甲基化标记的ChIP-seq方法进行组蛋白甲基化剖析的一个实施方式。使用ChIP-seq方法的这一实施方式,观察到所有ES/iPS细胞间具有良好的定性一致,ChIP-seq方法产生不同的定量并需要大量细胞。因此,可使用对DNA甲基化进行测定的替代方法。
图17示出了对具有不正常DNA甲基化基因的iPS细胞系进行选择的图示(schematic representation)。将使用亚硫酸氢盐DNA甲基化测序而得的多种ES细胞系中的DNA甲基化图谱用于建立正常变异。然后将所感兴趣的细胞中的不同基因的DNA甲基化水平与上述基因的正常DNA甲基化水平进行比较,并将甲基化水平落入正常范围之外的基因视为离群值。
图18示出了显示出在这一研究中所用的各种不同的ES细胞系和iPS细胞系中甲基化水平升高或降低的基因的数量的实例。
图19A-图19B示出了在ES细胞、iPS细胞和成纤维细胞中超甲基化(图19A)和低甲基化(hypomethylated)(图19B)的基因数量的Venn图。
图19A示出了如下实施方式:有116种基因在ES细胞和iPS细胞中都为超甲基化的,其中,11种基因在ES细胞和成纤维细胞中都为超甲基化的,而65种基因在iPS细胞和成纤维细胞中都为超甲基化的。在这一实施方式的该实例中,仅有6种基因在所有3种类型细胞中都为超甲基化的。
图19B示出了如下实施方式:有116种基因在ES细胞和iPS细胞中都为低甲基化的,其中,83种基因在ES细胞和成纤维细胞中都为低甲基化的,而217种基因在iPS细胞和成纤维细胞中都为低甲基化的。在这一实施方式的该实例中,仅有58种基因在所有3种类型细胞中都为低甲基化的。
图20示出了记分卡的一个实施方式,所述记分卡示出了在多种不同ES细胞和iPS细胞中,甲基化升高或降低(相比正常变异的甲基化水平)的基因的数量、以及甲基化水平升高或降低(相比正常变异的甲基化参比水平)的癌基因的数量。超甲基化和/或低甲基化癌基因数量少的多能细胞系被指定为表观遗传“安全”的ES细胞或iPS细胞,而超甲基化和/或低甲基化癌基因数量较高的多能细胞系被指定为表观遗传离群值,并对用于治疗和/或其它应用来说具有潜在的不安全性。
图21示出了生成谱系记分卡的示意图,总结了用于测定人iPS系集的分化偏倚或倾向的细胞系分化分析。在这一实施方式中,使用16天拟胚体(EB)分化方案得出记分卡,然而,可使用较短的分化方案,例如,从EB0(EB第0天)至EB32(EB第32天)或更高的任何时段。将500种“谱系基因表达基因”的基因表达谱用于对多能干细胞系沿不同细胞类型和谱系分化的倾向进行定量,并将生物信息学分析用于测定富集基因集和贫化基因集以及与多种其它多能细胞系(例如,ES细胞和iPS细胞系)进行比较,从而生产出谱系记分卡。
图22A示出了谱系记分卡在人iPS系向运动神经元定向分化中的实验验证。所有iPS细胞系都分化成了运动神经元。图22B示出了谱系记分卡的一个实施方式,所述谱系记分卡说明了分化成运动神经元的效率,所述效率通过对Islet1进行染色而测量(用>60,000个细胞进行2-3次独立重复)。转基因表达通过qPCR进行分析。用500种“谱系基因表达基因”的基因表达谱来生成此类谱系记分卡,以对多能干细胞系沿不同细胞类型和谱系分化的倾向进行定量,并将生物信息学分析用于测定富集基因集和贫化基因集以及与多种其它多能细胞系(例如,ES细胞和iPS细胞系)进行比较,从而生产出谱系记分卡。
图23示出了指令(instructions)的一个实施方式的流程图,所述指令用于产生所感兴趣多能干细胞的偏离记分卡的计算机程序。将数据输入计算机,所述计算机包含处理器和相关存储器(associated memory)或者存储设备、以及基因映射(mapping)模块、参比比较模块、归一化模块、相关性过滤模块(relevance filter module)、基因集模块和显示偏离记分卡的记分卡显示模块。
图24示出了指令的一个实施方式的流程图,所述指令用于产生所感兴趣多能干细胞的谱系记分卡的计算机程序。尽管可使用为生成所述偏离记分卡而获得的数据(例如,所感兴趣的多能干细胞系的DNA甲基化数据和/或基因表达数据),在该实施方式中,输入数据为所感兴趣的多能干细胞系的基因表达数据。将数据输入计算机,所述计算机包含处理器和相关存储器或者存储设备、以及分析归一化模块、样品归一化模块、参比比较模块、基因集模块、富集分析模块、和显示谱系记分卡的记分卡显示模块。
图25示出了本发明的一个实施方式的简化方框图,该实施方式涉及用于对所感兴趣的多能干细胞进行表征并生产偏离记分卡和/或谱系记分卡的高通量系统。测定模块可为用于对基因表达和/或DNA甲基化进行测量的任何装置或机器。
图26示出了本发明的一个实施方式的简化方框图,该实施方式使得从DNA甲基化分析和基因表达分析而来的数据被配置成在任何位置都能被计算机系统处理并可通过使用界面访问,其中,将每一多能干细胞的数据存储在数据库中。
图27示出计算机系统的示例性方框图,可将所述计算机系统配置来执行图23和图24中概述的指令。
具体实施方式
本发明通常涉及用于多能干细胞的参比数据集或“记分卡”,以及生成记分卡的方法、系统和试剂盒,所述记分卡用于对多能干细胞在所期望用途中的功能性和适用性进行预测。所述“记分卡”提供了干细胞中至少一种正常翻译后修饰(例如甲基化)的参比值范围,并任选提供了干细胞中分化相关基因正常表达模式的参比值范围,以及进一步任选提供了谱系特异性标志物(例如,神经干细胞、造血干细胞、胰干细胞和其它更受限制的干细胞标志物)的正常范围。在一些方面,所述记分卡包含选自于如下参比集中的至少两种参比数据集:翻译后修饰参比集(例如,DNA甲基化参比集)、分化倾向参比集和基因表达数据集。在一些实施方式中,所述记分卡进一步提供了指导方针以测定所感兴趣的多能干细胞是否落入正常多能干细胞变异的正常参数范围内。此类指导方针优选处于计算机可执行格式。
在一些实施方式中,所述记分卡包含选自于如下参比集中的至少两种参比数据集:表观遗传或翻译后修饰参比集(例如,DNA甲基化参比集)、分化倾向参比集和基因表达数据集(由该申请文件中所提及的19种不同ES细胞系集的数据汇编(compiled)而来)。在可选的实施方式中,所述记分卡为由具有期望特性的多能干细胞的数据汇编而来的记分卡,例如,具有分化成内胚层谱系(如胰谱系等)的分化倾向的多能干细胞,例如外胚层或中胚层分化标志物。
本发明的另一方面涉及用于生成记分卡的方法,所述方法包括使用选自如下分析中的至少2种干细胞分析:表观遗传谱、分化分析和基因表达分析,以对多能干细胞系在期望用途中的功能性和适用性进行预测。在一些实施方式中,可将记分卡参比数据与所述多能干细胞数据进行比较,以有效并准确地预测出所述多能干细胞在给定应用中的效用;以及对所述多能干细胞的特异性特征进行鉴定,以测定它们在下游应用中的适用性,例如,其在如治疗用途、药物筛选和毒性分析、向期望细胞谱系分化等中的适用性。
在一些实施方式中,所述DNA甲基化参比集涉及第一参比基因集的甲基化水平,其中,所述DNA甲基化参比基因可为癌基因、和/或发育基因,并在表12A中公开。在一些实施方式中,用于第一参比DNA甲基化基因集的基因为选自于表12A和/或表12C和/或表13A、表13B或表14中的基因列表中的至少约200种、或至少约300种、或至少约400种、或至少约500种、或至少约600种、或至少约800种、或至少约1000种、或至少约1500种、或至少约2000种、或至少约3000种、或至少约4000种、或至少约5000种基因的任意组合。在一些实施方式中,所述基因为选自于表12A中编号为1-200、或编号为1-500、或编号为1-1000的基因集、表12C、表13A、表13B或表14中任一表所列基因的任意组合。
因此,本发明的一个方面涉及用于对多能干细胞系在期望用途中的功能性和适用性进行预测的方法以及多种分析。在一些实施方式中,可将干细胞分析中的至少1种、或至少2种或至少3种单独或以任意组合的方式用于预测多能干细胞在期望用途中的功能性和适用性。在一些实施方式中,第一分析为表观遗传谱(例如,对具体限定的基因集的基因甲基化的评估),以测定在所述多能干细胞系中活化的基因。在一些实施方式中,第二分析为分化分析,以测定所述多能干细胞系沿特定谱系的分化倾向。在一些实施方式中,所述分析为基因表达分析(例如,全基因组基因表达分析)以测定。
另一方面涉及参比数据集(本文称为“记分卡”),所述参比数据集为由本发明的3种联合分析而来的多种不同多能干细胞的结果的平均数据,提供了构成“记分卡”的参比数据,所述记分卡可被本领域技术人员用于与其所感兴趣的多能干细胞系进行比较,其中,与所述参比“记分卡”的比较可用于有效且准确地预测所述多能干细胞在给定应用中的效用,并对所感兴趣的多能干细胞系(例如,ES细胞系或iPS细胞系)的特异性特征进行预测。因此,可将如本文所公开的方法、分析以及记分卡用于对干细胞的特异性特征进行鉴定,从而测定出其在下游应用中的适用性,例如,其在如治疗用途、药物筛选和毒性分析、向期望细胞谱系分化等中的适用性。
在一些实施方式中,可将如本文所公开的分析用于对各种多能干细胞系的质量进行表征和测定,所述多能干细胞系例如但不限于如胚胎干细胞、自体成体干细胞、iPS细胞、以及其它多能干细胞系(如,重编程细胞、直接重编程细胞(direct reprogrammed cell)或部分重编程细胞)。在一些实施方式中,干细胞系为人干细胞系。在一些实施方式中,多能干细胞系为遗传修饰的多能干细胞系。在一些实施方式中,当多能干细胞系用于治疗用途或用于向受试者移植,所述多能干细胞系为自体多能干细胞系,例如,衍生自受试者并将移植回该受试者的干细胞群(;在可选实施方式中,多能干细胞系为同种异体(allogenic)多能干细胞系。
定义
为了方便起见,此处收集了在申请文件、实施例和所附权利要求中所用的若干术语。除非另有说明或在上下文中有所暗示,下列术语和短语包括下文提供的含义。除非另有明确说明或从上下文中可明显看出,下列术语和短语不排除在其所属领域已具有的含义。提供所述定义以辅助描述本文描述的方面的具体实施方式,而由于本发明的范围仅受权利要求所限,因此并不意味着限制所请求保护的发明。除非另有定义,本文中使用的所有技术术语和科学术语具有与该发明所属技术领域中的普通技术人员通常认为的意思相同的意思。
本文所公开的术语“记分卡(scorecard)”指所感兴趣的一种或多种多能干细胞系与参比多能干细胞系相比在选定基因的DNA甲基化和/或基因表达上的差异的总结列表,并起到记录所述多能干细胞的预测性能(例如,分化能力和/或多能性能力和/或成为癌细胞系的易感性)的作用。记分卡可以任何形式存在,例如,以数据库、书面形式、电子形式等,可以电子化或数字化的方式记录并保存于注释的数据库中。在一些实施方式中,记分卡可为根据与参比多能细胞系或多个参比多能细胞系进行比较而得到的对所述多能干细胞能力(例如,分化能力、多能性等)的预测的图解表示。因此,如本文所公开的记分卡作为多能干细胞系的特征和潜能的指示器(indicator)或列表,并可用于帮助快速且有效地选择用于特别用途和/或达到具体目的的特定多能干细胞系。
本文使用的术语“重编程”是指改变或回逆(reverse)分化细胞(例如,体细胞)的分化状态的过程。换句话说,重编程是指驱使已分化的细胞反向成为较不分化或更原始类型的细胞的过程。完全重编程包括如下至少某些遗传模式的彻底回逆:核酸修饰(如甲基化)、染色质凝聚、表观遗传变化、基因组印记(imprinting)等,这些发生在由合子(zygote)发育为成人的细胞分化过程中。重编程不同于简单地维持现有的已经是多能细胞的未分化状态或维持现有的已经是专能细胞的不完全分化状态(如造血干细胞)。重编程也不同于促进已经是多能细胞或专能细胞的自我更新或增殖,尽管本发明的组合物和方法也可以用于上述目的。
本文使用的术语“稳定重编程细胞(stable reprogrammed cell)”是指从分化细胞(例如,体细胞)的部分(partial)重编程或不完全(incomplete)重编程产生的细胞。稳定重编程细胞在本文中可以与“piPSC”互换使用。稳定重编程细胞没有经过完全重编程,从而细胞表观基因组(epigenome)没有总体重塑(global remodeling)。稳定重编程细胞是多能干细胞,并能进一步重编程为iPSC(如本文对该术语的定义),或者可分化为不同的谱系。在一些实施方式中,部分重编程的细胞表达来自于所有三个胚层(即内胚层、中胚层或外胚层这三个胚层)的标志物。在小鼠中,内胚层细胞(endoderm germ cells)的标志物包括Gata4、FoxA2、PDX1、Nodal、Sox7和Sox17。在小鼠中,中胚层细胞(mesoderm germ cells)的标志物包括Brachycury、GSC、LEF1、Mox1和Tie1。在小鼠中,外胚层细胞(ectoderm germcells)的标志物包括cripto1、EN1、GFAP、Islet1、LIM1和Nestin。在一些实施方式中,部分重编程细胞为未分化细胞。用于人内胚层细胞、外胚层细胞和中胚层细胞的标志物在本文的表7中公开,例如,外胚层细胞的标志物包括但不限于NCAM1、EN1、FGFR2、GATA2、GATA3、HAND1、MNX1、NEFL、NES、NOG、OTX2、PAX3、PAX6、PAX7、SNAI2、SOX10、SOX9、TDGF1、APOE、PDGFRA、MCAM、FUT4、NGFR、ITGB1、CD44、ITGA4、ITGA6、ICAM1、THY1、FAS、ABCG2、CRABP2、MAP2、CDH2、NES、NEUROG3、NOG、NOTCH1、SOX2、SYP、MAPT、TH;人内胚层细胞的标志物包括但不限于APOE、CDX2、FOXA2、GATA4、GATA6、GCG、ISL1、NKX2-5、PAX6、PDX1、SLC2A2、SST、ITGB1、CD44、ITGA6、THY1、CDX2、GATA4、HNF1A、HNF1B、CDH2、NEUROG3、CTNNB1、SYP;以及中胚层细胞的标志物包括但不限于CD34、DLL1、HHEX、INHBA、LEF1、SRF、T、TWIST1、ADIPOQ、MME、KIT、ITGAL、ITGAM、ITGAX、TNFRSF1A、ANPEP、SDC1、CDH5、MCAM、FUT4、NGFR、ITGB1、PECAM1、CDH1、CDH2、CD36、CD4、CD44、ITGA4、ITGA6、ITGAV、ICAM1、NCAM1、ITGB3、CEACAM1、THY1、ABCG2、KDR、GATA3、GATA4、MYOD1、MYOG、NES、NOTCH1、SPI1和STAT3。
本文使用的术语“诱导多能干细胞”或“iPSC”或“iPS细胞”是指衍生自分化细胞(例如,体细胞)的分化状态重编程或完全回逆(reversion)的细胞。本文所用的iPSC是完全重编程的、并且是经历了完整的表观遗传重编程的细胞。如本文中所用的iPSC为不能进一步重编程的细胞(例如,iPSC细胞是终末重编程的细胞)。
术语“表观基因组重塑(remodeling of the epigenome)”是指基因组的化学修饰不改变细胞中基因组序列或基因的碱基对的序列,但改变表达。
术语“表观基因组总体重塑(global remodeling of the epigenome)”是指基因组的化学修饰已经发生,其中并没有来自分化细胞的先前基因表达的记忆(从中衍生出重编程细胞或iPSC)。
术语“表观基因组不完全重塑(incomplete remodeling of the epigenome)”是指基因组的化学修饰已经发生,其中存在来自分化细胞的先前基因表达的记忆(从中衍生出稳定重编程细胞或piPSC)。
本文使用的术语“表观遗传重编程(epigenetic reprogramming)”是指在细胞中通过不改变基因组序列或基因碱基对序列的化学修饰而改变基因的表达模式。
本文所用的术语“表观遗传”是指“基因组上(upon the genome)”。不改变基因序列、但影响基因表达的DNA的化学修饰也可以被遗传。表观遗传修饰在某些情况下还可以包括翻译后修饰或“PTM”,所述翻译后修饰或“PTM”是对DNA而言不改变基因DNA或核苷酸序列的改变,并例如在印记和细胞重编程中很重要。翻译后修饰包括,例如DNA甲基化、泛素化、磷酸化、糖基化、SUMO化、乙酰化、S-亚硝基化或亚硝基化、瓜氨酸化或去亚胺基化、类泛素化、OClcNAc、ADP-核糖基化、羟基化、fattenylation、ufmylation、异戊烯基化、豆蔻酰化、S-棕榈酰化、酪氨酸硫酸盐化、甲酰化和羧化。
如本文中所用的术语“甲基化(methylation)”指甲基基团共价连接在基因调控区的CpG二核苷酸内的核苷酸碱基胞嘧啶的C5位。术语“甲基化状态(state)”或“甲基化情形(status)”指在DNA序列内的一个或多个CpG二核苷酸中存在或不存在5-甲基-胞嘧啶(“5-mCyt”)的情况。如本文中所用的,术语“甲基化情形”和“甲基化状态”可互换使用。甲基化位点是被序列特异性甲基化酶识别并甲基化的连续相连的核苷酸(contiguous linkednucleotides)序列。甲基化酶是在甲基化位点上甲基化(即,共价连接甲基基团)一个或多个核苷酸的酶。
术语“甲基化水平”指例如在所有基因组区域和一些非基因组区域中的目标DNA甲基化基因的DNA序列上存在的甲基化的量。在一些实施方式中,所述甲基化水平在目标基因的启动子区域中测定。
此处所用的术语“CpG岛”为富含CpG二核苷酸的短DNA序列,可在约二分之一的全部人基因中的5’区域发现。术语“CpG位点”指CpG岛内的CpG二核苷酸。CpG岛的长度通常、但不总是在约0.2kb-约1kb之间。
本文中所用的术语“基因谱(gene profile)”是用来指多能干细胞样品中基因、或基因集的基因表达水平。在本发明的一个实施方式中,所述术语“基因谱”指在表12B和/或表12C中所列出的基因或基因集,或者指任意选择的本文中所述的表12B或表12C、表13A、表13B或表14中的基因。
在本发明的上下文中,术语“差异表达(differential expression)”意思是与在多能干细胞中表达的正常变异相比基因的表达上调或下调。用于计算基因的差异表达的统计方法在本文中的别处进行讨论。
“表12B的基因”在本文中可与“表12B所列出的基因”互换使用,指表12B中“基因名称”下所列出的基因的基因产物。“基因产物”意思是所述基因转录或翻译的任何产物,不管是由天然方式还是人工方式产生的。在本发明的一些实施方式中,本文中所涉及的基因为表12A和表12B以及表12C中被定义为“基因名称”的第2列中所列出的基因。所述基因还列举在表12A、表12C、表13A、表13B或表14中。
本文使用的术语“多能(pluripotent)”是指具有在不同的条件下分化为所有三种胚层细胞层(内胚层、中胚层和外胚层)的细胞类型特征的能力的细胞。使用例如裸鼠畸胎瘤形成试验,通过它们能分化为所有三种胚层的能力初步表征多能细胞。多能性还通过胚胎干(ES)细胞标志物的表达来证明,尽管优选的多能性的测试是证明分化成三个胚层中每一胚层的细胞的能力。在一些实施方式中,多能干细胞为未分化细胞。
本文使用的术语“多能性(pluripotency)”或“多能状态”是指满足下述条件的细胞:具有分化为所有三种胚层——内胚层(肠组织)、中胚层(包括血、肌肉和血管)、以及外胚层(如皮肤和神经)——的能力,并且通常在相当长的一段时间内具有在体外分化的潜能,例如,大于1年或超过30代。
提及“专能细胞”时使用的术语“专能(multipotent)”是指能够分化成一些但并非全部来自所有三种胚层的细胞。因此,专能细胞是部分分化的细胞。专能细胞在本领域是公知的,专能细胞的例子包括:成体干细胞,例如造血干细胞和神经干细胞。专能意味着干细胞可以在给定的谱系中形成许多类型的细胞,但不形成其它谱系的细胞。例如,专能血液干细胞可以形成许多不同类型的血细胞(红细胞、白细胞、血小板等),但它不能形成神经元。
术语“专能性”是指发育多功能性(developmental versatility)的程度小于全能和多能的细胞。
术语“全能性(totipotency)”是指具有分化程度描述为能制造成年体内以及包括胎盘的胚外组织中所有细胞的细胞。受精卵(合子)在早期的卵裂细胞(cleaved cells)(卵裂球(blastomeres))阶段是全能的。
术语“分化的细胞”意味着其原生形式(native form)并非多能(该术语如本文所定义)的任何初级细胞。术语“分化的细胞”也包括部分分化的细胞,如专能细胞、或者是稳定的非多能、部分重编程的细胞。需要注意的是,将许多初级细胞置于培养基可导致部分细胞丧失完全分化特征。因此,该细胞的简单培养包含在分化的细胞这一术语中,并且并没有使得这些细胞成为非分化细胞(例如,未分化的细胞)或多能细胞。分化的细胞转变为多能性需要在培养基中部分丧失分化特征刺激以外的重编程刺激。重编程细胞也具有能够扩展传代(extended passaging)而不丧失生长潜能的特征,而与之相比的初级细胞母体一般在培养基中只具有进行有限次分裂的能力。在一些实施方式中,术语“分化的细胞”也指由较少特化细胞类型(例如,未分化的细胞或重编程的细胞)衍生出的更特化的细胞类型的细胞,其中细胞已经历了细胞分化过程。
本文使用的术语“体细胞(somatic cell)”是指除了生殖细胞、存在于或从植入前胚胎获得的细胞、以及该细胞在体外增殖获得的细胞以外的任何细胞。换句话说,体细胞是指相对于生殖细胞的、构成有机体的任何细胞。在哺乳动物中,生殖细胞(也被称为“配子”)是精子和卵子在受精过程中融合产生的称为合子的细胞,从中发育成整个哺乳动物胚胎。在哺乳动物体中,除了精子和卵子、由它们获得的细胞(配子)和未分化的干细胞外的其它细胞类型均为体细胞:内脏、皮肤、骨、血液、和结缔组织均由体细胞构成。在一些实施方式中,体细胞是“非胚胎体细胞”,是指不存在于胚胎或不从胚胎获得的细胞、以及不会从该细胞在体外增殖得到的体细胞。在一些实施方式中,体细胞是“成体体细胞”,是指存在于或从除了胚胎或胎儿以外的生物体得到的细胞、或从该细胞在体外增殖得到的细胞。除另有指明外,对分化的细胞重编程的方法可以在体外和体内实施(当分化的细胞存在于受试者体内时在体内实施,当分离后的分化的细胞保留在培养基内时在体外实施)。在一些实施方式中,当分化的细胞或分化的细胞群在体外培养时,分化的细胞可以培养在器官型切片培养(organotypic slice culture)中,例如Meneghel-Rozzo等人,(2004),Cell Tissue Res,316(3):295-303中的描述,其全部内容通过引用并入本文中。
本文使用的术语“成体细胞(adult cell)”是指在胚胎发育之后遍布整个机体的细胞。
在细胞个体发育(ontogeny)过程的背景下,术语“分化(differentiate/differentiating)”是相对的概念,“分化细胞”是比其前体细胞的发育途径进展更深远的细胞。因此,在一些实施方式中,本文所定义的重编程细胞可以分化为谱系限制的前体细胞(如中胚层干细胞),其可依次进一步向深远的途径分化为其它前体细胞类型(如组织特异性前体,例如,心肌细胞前体),然后成为终末期分化的细胞,其在特定组织类型中起特征性作用,并可能会或可能不会保留进一步增殖的能力。
所使用的术语“胚胎干细胞”是指胚胎囊胚的内细胞团的多能干细胞(见美国专利5,843,780、6,200,806,通过引用的方式并入本文)。该细胞可类似地从来源于体细胞核转移的囊胚内细胞团中获得(参见例如,美国专利号5,945,577、5,994,619、6,235,970,通过引用的方式并入本文)。胚胎干细胞的区别特征决定了胚胎干细胞表型。因此,如果细胞具有一种或多种胚胎干细胞的独特特征,使得该细胞可以区别于其它细胞,那么该细胞具有胚胎干细胞的表型。示例性的胚胎干细胞区别特征包括但不限于:基因表达谱、增殖能力、分化能力、染色体核型(karyotype)、对特定培养条件的响应等。
术语“表型”是指不管实际的基因型,将细胞或有机体限定于一组特定的环境条件和因素的一个或若干总的生物学特征。
术语“表达”指涉及生产RNA和蛋白,并酌情涉及分泌蛋白的细胞过程,在适用的情况下,包括但不限于例如,转录、翻译、折叠、修饰和加工。“表达产物”包括由基因转录而来的RNA、和由从基因转录的mRNA翻译而获得的多肽。
术语“外源的(exogenous)”指存在于细胞中的非其天然来源的物质。当在本文中使用时,术语“外源的”是指通过涉及人工的过程引入生物系统(如细胞或有机体)的核酸(例如编码sox2转录因子的核酸)或蛋白(例如,sox2多肽),这些核酸或蛋白在所述生物系统中通常并不存在或在所述生物系统中以较低的量存在。如果物质是被引入细胞或所述细胞的祖先细胞(遗传所述物质),那么所述物质(例如编码sox2转录因子的核酸;或蛋白,例如sox2多肽)将被认为是外源的。相反,术语“内源的(endogenous)”指生物系统或细胞(例如分化细胞)本身的物质。
如本文中所用的术语“分离的(isolated)”或“部分纯化的(particallypurified)”就核酸或多肽而言是指与至少一种其它组分(例如,核酸或多肽)相分离的核酸或多肽,所述其它组分在其天然来源中与所述核酸或多肽一起存在,和/或当被细胞表达或就分泌多肽而言被细胞分泌时,所述组分将与所述核酸或多肽一起存在。化学合成的核酸或多肽或者使用体外转录/翻译合成的核酸或多肽被认为是“分离的”。
本文使用的术语“分离的细胞(isolated cell)”是指从最初被发现时的有机体中移除的细胞、或该细胞的后代。任选地,细胞已在体外培养,例如在其它细胞的存在下培养。任选地,该细胞随后被引入第二有机体,或将该细胞(或它的后代)重新引入到分离出该细胞的有机体中。
对于分离的细胞群,本文使用的术语“分离的群(isolated population)”是指已经被移除的、从混合或非均质(heterogeneous)细胞群分离的细胞群。在一些实施方式中,分离的群与非均质细胞群(分离的群从中分离或富集)相比是基本上纯的。在一些实施方式中,所述分离的群是重编程细胞的分离的群,相比含有重编程细胞和衍生出所述重编程细胞的细胞的非均质细胞群,所述重编程细胞的分离的群是基本上纯的重编程细胞群。
对于特定的细胞群,术语“基本上纯(substantially pure)”是指相对于构成总细胞群的细胞而言,至少约75%、优选至少约85%、更优选至少约90%、最优选至少约95%纯的细胞群。另外,对于重编程细胞群,术语“基本上纯”或“实质上纯化(essentiallypurified)”是指满足如下条件的细胞群:包含少于约20%,更优选少于约15%、10%、8%、7%,最优选少于约5%、4%、3%、2%、1%、或少于1%的不是本文的术语所定义的重编程细胞或它们的后代的细胞。在一些实施方式中,本发明包含扩增重编程细胞群的方法,其中所述扩增的重编程细胞群为基本上纯的重编程细胞群。
本文中所用的“增殖(proliferating和proliferation)”指借助于细胞分裂使群中的细胞数目增加(生长)。细胞增殖通常被理解为由响应环境的多个信号转导通路的协调激活(coordinated activation)所引起,包括生长因子及其它丝裂原。细胞增殖还可通过解除细胞内或细胞外阻断或负面影响细胞增殖的信号和机制的作用来推动。
术语“富集(enriching)”或“富集的(enriched)”在本文中可互换使用,并表示一类细胞的产率(分数(fraction))比在起始的培养或制备中该类细胞的分数增加至少10%。
术语“更新(renewal)”或“自我更新(self-renewal)”或“增殖”在本文中可互换使用,是指细胞复制多个其自身拷贝(例如,倍增)的过程。在一些实施方式中,重编程细胞在很长的期间和/或数月至数年,仍能够通过分裂为相同的未分化细胞(例如,多能或非特化的细胞类型)而自我更新。在某些情况下,细胞增殖是指通过单个细胞的重复分裂成两个相同的子细胞的过程实现的重编程细胞的扩增。
本文使用的术语“细胞培养基(cell culture medium)”(在本文中也称为“培养基(culture medium)”或“介质(medium)”)是指含有维持细胞生存力并支持增殖的营养素的用于培养细胞的介质。细胞培养基可以含有适当组合的任意下列物质:盐、缓冲液、氨基酸、葡萄糖或其它糖、抗生素、血清或血清替代品、以及诸如肽生长因子的其它组分。通常用于特定细胞类型的细胞培养基为本领域的技术人员所知。
术语“细胞系”指大体上或基本上相同的细胞的群,所述细胞系一般起源于单个祖先细胞或来自于限定的和/或基本上相同的祖先细胞群。所述细胞系可能已在或可能能够在培养基中长时期(例如,数月,数年,无限的时间)维持。所述细胞系可能已经经历了自发或诱导的转化过程,从而赋予所述细胞无限的培养寿命。细胞系包括本领域中所认可的所有这样的细胞。应当理解的是,细胞在经过一段时间后获得突变以及可能的表观遗传改变,从而使得细胞系中的单个细胞的一些特性相对彼此可能不同。
本文使用的术语“谱系”是指具有共同的祖先或具有共同的发育命运的细胞。仅作为举例,内胚层起源的细胞或“内胚层谱系”意味着由内胚层细胞衍生的、并可按内胚层谱系限定的途径分化的细胞,例如一个或多个发育谱系途径产生最终的内胚层细胞,随后可以分化为肝细胞、胸腺、胰腺、肺和肠。
本文使用的术语“降低(decrease)”、“减少(reduced/reduction)”、“降低(decrease)”或“抑制(inhibit)”都意味着减少有统计学意义的量。然而,为避免疑义,“减少(reduced/reduction)”或“降低(decrease)”或“抑制(inhibit)”表示相对于参比水平降低至少10%,例如降低至少约20%、或至少约30%、或至少约40%、或至少约50%、或至少约60%、或至少约70%、或至少约80%、或至少约90%、或上至并包括降低100%(如,相对于参比样品的缺乏水平)、或相对于参比水平降低在10%到100%之间的任意量。
本文使用的术语“增加(increased/increase)”或“增强(enhance)”或“活化(activate)”通常都意味着增加有统计学意义的量;为避免疑义,术语“增加(increased/increase)”或“增强(enhance)”或“活化(activate)”表示相对于参比水平增加至少10%,例如增加至少约20%、或至少约30%、或至少约40%、或至少约50%、或至少约60%、或至少约70%、或至少约80%、或至少约90%、或上至并包括增加100%、或相对于参比水平增加在10%到100%之间的任意量;或相对于参比水平至少约2倍、或至少约3倍、或至少约4倍、或至少约5倍、或至少约10倍的增加、或增加在2倍和10倍之间的任意量、或是更大量的增加。
术语“统计学显著(statistically significant)”或“显著地(significantly)”表示统计显著性,并且通常意味着参比水平以上或以下两个标准差(2SD)。这个术语表示统计证明存在差异。它被定义为当无效假设实际上是真时作出否决该无效假设的决定的可能性。通常利用p值来作出决定。
本文所用的术语“DNA”被称为脱氧核糖核酸。
本文所用的术语“分化”涉及细胞由原始阶段走向更成熟(即较不原始)细胞的细胞发育。
本文所用的术语“定向分化(directed differentiation)”指经由遗传的和/或环境操作使细胞由未分化细胞类型(例如更原始的细胞)到更成熟细胞类型(即较不原始的细胞)的强迫分化。在一些实施方式中,使本文所公开的重编程细胞定向分化为特定细胞类型(如神经元细胞类型、肌细胞类型等)。
本文所使用的术语“功能分析”为通过评价细胞在某些环境下的生长或生存能力来对细胞性能(如细胞的基因表达或发育状态)进行评估的测试。在一些实施方式中,可通过功能分析来鉴定重编程细胞以测定所述重编程细胞是否处于如本文所公开的多能状态。
本文所用的术语“疾病建模(disease modeling)”指通过利用实验室细胞培养或动物研究来获得关于人的疾病或不适(illness)的新信息。在一些实施方式中,通过本文所公开的方法所生产的重编程细胞可用于疾病建模实验。
本文所用的术语“药物筛选(drug screening)”指通过利用实验室中的细胞和组织来对具有特定功能的药物进行鉴定。在一些实施方式中,本发明提供了分化细胞的药物筛选方法,从而鉴定将分化的细胞重编程为重编程细胞(例如,如本文所公开的处于多能状态的重编程细胞;或为稳定中间体的重编程细胞,部分重编程细胞)的化合物或药物。在一些实施方式中,本发明提供了稳定中间体部分重编程细胞的药物筛选方法,从而鉴定将分化的细胞重编程为完全重编程细胞(例如处于多能状态的重编程细胞)的化合物或药物。在可选的实施方式中,本发明提供了在重编程细胞(例如人重编程细胞)上的药物筛选方法,从而鉴定用于对疾病或不适进行治疗的化合物或药物。
本文所用的“标志物(marker)”用来描述细胞的特征和/或表型。可将标志物用于对含有感兴趣特征的细胞进行选择。标志物将随特定细胞而变。标志物为如下特征:无论是特定细胞类型细胞的形态学、功能或生化(酶促)特征,还是由所述细胞类型表达的分子。优选地,此类标志物为蛋白;更优选地,此类标志物具有本领域可获得的抗体的表位或其它结合分子。然而,标志物可由在细胞中发现的任何分子构成,所述分子包括但不限于:蛋白(肽和多肽)、脂类、多糖、核酸和类固醇。形态学特征或特点(traits)的实例包括但不限于:形状、大小、和核质比(nuclear to cytoplasmic ratio)。功能特征或特点的实例包括但不限于:粘附至特定基质的能力、掺入或排除特定染料的能力、在特定条件下迁移的能力,以及沿特定谱系分化的能力。标志物可通过本领域技术人员可用的任何方法来进行检测。标志物还可为形态学特征的缺失,或蛋白、脂类等的缺失。标志物可为一组多肽存在和缺失的独特特征与其它形态学特征的组合。
术语“可选标志物(selectable marker)”指基因、RNA或蛋白,当所述可选标志物表达时,赋予细胞可选的表型,例如,对细胞毒试剂或细胞抑制剂的抗性(例如,抗生素抗性)、营养原养型(nutritional prototrophy)、或者特定蛋白的表达(所述蛋白可用作把表达所述蛋白的细胞与不表达该蛋白的细胞区分开来的基础)。表达可容易被探测的蛋白(如,荧光蛋白或发光蛋白,或者能作用于基质以产生有色、荧光或发光物质的酶)(“可检测标志物”)构成可选标志物的子集。与通常在多能细胞中选择性地或专一地表达的基因本身的表达调控元件相连接的可选标志物的存在使得能够对已重编程为多能状态的体细胞进行鉴定和选择。可使用各种可选标志物基因,如新霉素抗性基因(neo)、嘌呤霉素抗性基因(puro)、鸟嘌呤磷酸核糖转移酶(gpt)、二氢叶酸还原酶(DHFR)、腺苷脱氨酶(ada)、嘌呤霉素-N-乙酰基转移酶(PAC)、潮霉素抗性基因(hyg)、多药耐药基因(mdr)、胸苷激酶(TK)、次黄嘌呤-鸟嘌呤磷酸核糖转移酶(HPRT)、以及hisD基因。可检测标志物包括绿色荧光蛋白(GFP),蓝色、深蓝色(sapphire)、黄色、红色、橙色、以及青色荧光蛋白,以及上述蛋白的任何变体。还可使用发光蛋白,如荧光素酶(例如,萤火虫或海肾荧光素酶)。正如对本技术领域的技术人员显而易见的,本文所用的术语“可选标志物”可指基因或所述基因的表达产物(例如所编码的蛋白)。
在一些实施方式中,相比不表达所述可选标志物的细胞或以显著低的水平表达所述可选标志物的细胞,该可选标志物为表达其的细胞赋予了增殖优势和/或生存优势。一般在将所述细胞维持在一定条件(例如,“选择性条件”)下时,此类增殖和/或生存优势出现。为确保有效的选择,可将细胞群维持在一定条件下足够长的时间,以使不表达所述标志物的细胞不增殖和/或无法存活,从而从所述群中除去,或者使其数量减少到只占该群中很小的一部分。选择表达如下标志物的细胞的过程在本文中被称为“正向选择”:所述标志物通过在选择性条件下维持细胞群来赋予增殖和/或生存优势,以将不表达所述标志物的细胞大部分除去或完全除去;并且所述标志物被称为“对正向选择有用”。在本文所述的某些方法中,同样也对逆向选择以及对逆向选择有用的标志物感兴趣。相对不表达所述标志物的细胞或以显著低的水平表达所述标志物的细胞,此类标志物为表达所述标志物的细胞赋予增殖和/或生存劣势(或者,以另一种方式考虑,相对于表达所述标志物的细胞,不表达所述标志物的细胞具有增殖和/或生存优势)。因此,在将细胞群维持在选择性条件下足够长的时间时,可将表达所述标志物的细胞从细胞群中大部分除去或完全除去。
本文所使用的术语“治疗(treating/treatment)”是指向受试者给予有效量的组合物以使受试者在疾病的至少一种症状方面有所减缓或所述疾病有所改善(例如,有益的或期望的临床结果)。为了本发明的目的,有益的或期望的结果包括但不仅限于:减轻一种或多种症状、降低疾病程度、稳定(例如,不恶化)疾病状态、延迟或延缓疾病进展、改善或减轻疾病状态、以及缓解(部分或全部),无论上述结果是可检测的还是不可检测的。在某些实施方式中,治疗可以是指与未得到治疗时预期的生存期相比而言延长了生存期。因此,本领域技术人员将体会到,治疗可以改善疾病状况,但可能不能完全治愈所述疾病。本文所使用的术语“治疗”包括预防。或者,如果疾病进展得到减少或停止,则治疗是“有效”的。在某些实施方式中,术语“治疗”还可以指与未得到治疗时预期的生存期相比而言延长了生存期。需要治疗的群体包括已经诊断患有疾病或状况的受试者、以及由于遗传易感性或其它导致疾病或状况的因素而可能患有疾病或状况的受试者(如一个非限制性实例,受试者的体重、饮食和健康是可导致受试者可能患有糖尿病的因素)。需要治疗的群体还包括需要医疗或手术关注、护理或管理的受试者。所述受试者通常是患病的或受伤的、或相对于群体的平均成员来说处于升高的患病风险中,并且,所述受试者需要这类关注、护理或管理。
在通过使得所述重编程细胞或其分化后代在期望位点至少部分定位的方法或途径,将如本文所公开的重编程细胞或其分化后代放置于受试者中的情况下,本文所使用的术语“给药/给予(administering)”、“引入(introducing)”和“移植(transplanting)”可互换使用。所述重编程细胞或其分化后代可直接给予感兴趣的组织,或者通过如下任何适当途径给予:使得所述重编程细胞或其分化后代递送到受试者中的期望位点,在所述期望位点处至少部分所述重编程细胞或其后代或者所述细胞的成分仍然有活力。给予受试者后,所述重编程细胞的生活周期可为短短几小时(如,24小时)、至数天、乃至长达数年。
本文所用的术语“移植(transplantation)”指向宿主(即移植受体或移植受试者)中引入新的细胞(例如重编程细胞)、组织(如由重编程细胞产生的分化细胞)、或器官。
术语“计算机(computer)”可指任何能够接受结构化输入(structured input)、根据规定的规则对所述结构化输入进行处理、并产生处理结果作为输出的非人力装置。计算机的实例包括:计算机、通用计算机、超级计算机、主机(mainframe)、超级小型计算机、小型计算机、工作站、微型计算机、服务器、交互式电视、计算机和交互式电视的混合式结构、以及仿效计算机的专用硬件和/或软件。计算机可具有单个处理器或多个处理器,所述处理器并行操作和/或不并行运行。计算机还指经由网络连接在一起的两个或更多计算机,从而在所述计算机间传输或接收信息。此类计算机的实例包括通过由网络连接的计算机来对信息进行处理的分布式计算机系统。
术语“计算机可读介质(computer-readable medium)”可指用于存储计算机可及的数据的任何存储设备、以及用于提供计算机对数据的访问的任何其它工具。存储设备型的计算机可读介质的实例包括:硬磁盘、软盘、光盘(如CD-ROM和DVD)、磁带以及存储器芯片。
在本文中术语“软件”可与“程序”互换使用,并指用于运行计算机的规定的规则。软件的实例包括:软件、代码段、指令、计算机程序、和程序控制逻辑。
术语“计算机系统”可指具有计算机的系统,其中所述计算机包含计算机可读介质,所述计算机可读介质中嵌有运行所述计算机的软件。
术语“蛋白组学”可指对细胞内蛋白表达、结构与功能的研究,包括所述蛋白工作和彼此相互作用的方式,并提供了与基因表达的基因组分析不同的信息。
本文所使用的术语“包含/包括(comprising或comprises)”表示对本发明必要的组合物、方法及其各自的组成部分,并且无论是否必要都仍然对未指定的要素保持开放。
本文所使用的术语“基本上由…组成”涉及给定的实施方式所需的那些元素。该术语允许存在实质上不影响本发明实施方式的基础和新颖性或起作用的特征的额外成分。
术语“由…组成”涉及本文所述的组合物、方法及其各自的组成部分,排除没有在实施方式描述中详述的任何要素。
除非文中明确地另有所指,本申请文件和所附权利要求中所用的单数术语“一(a/an)”和“该/所述(the)”涵盖复数的所指物。因此,例如,提及“所述方法/该方法(themethod)”时,其包括一种或多种本文中所述的方法和/或步骤类型和/或本领域技术人员阅读本公开等后将变得显而易见的方法和/或步骤类型。
除了在操作实施例中或另有指示的地方,本文所用的表示成分的量或反应条件的全部数值在所有情况下都应该被理解为被术语“约”修饰。与百分比相连使用的术语“约”可意味着±1%。下文(包括实施例)将对本发明进行详细说明,但本发明的保护范围不应限制于此。
应当理解的是,上述详细说明及下面的实施例仅是说明性的,并不作为对本发明保护范围的限制。对本领域人员显而易见的是,可在不脱离本发明的精神和保护范围的情况下对所公开的实施方式进行各种变化和改进。此外,为了描述和公开的目的,通过引用的方式将所标明的所有专利、专利申请以及出版物明确并入本文,例如,此类出版物中描述的可与本发明一起使用的方法学。这些出版物仅仅由于它们的公开早于本申请的申请日而提供。在这一方面不应当视作承认本发明人没有权利借助于先前的发明或因为任何其它原因而将公开的内容提前。所有关于这些文件的日期的声明或这些文件的内容的表述是基于申请人可得的信息,并且不构成关于这些文件的日期或这些文件的内容的正确性的任何承认。
概述
本发明的一个方面涉及用于产生对多能干细胞系进行表征的2种记分卡的系统和分析,第一记分卡(可被称为“偏离记分卡”或“多能性记分卡”)用于提供感兴趣的多能干细胞与先前建立的多能干细胞系或对照多能干细胞系进行比较的信息,并可用于鉴定相比参比多能干细胞系和/或多个参比多能干细胞系,在DNA甲基化或基因表达方面存在变异的基因的数量或%。此类记分卡用于对感兴趣的干细胞系的多能性进行鉴定,以及对所感兴趣的干细胞系是否有癌基因的非典型性(atypical)基因表达或DNA甲基化(可使所感兴趣的干细胞在稍后的时间点具有异常增殖和形成癌症的易感性)进行鉴定。第二记分卡(本文中称为“谱系记分卡”)用于对所感兴趣的多能干细胞的分化潜能进行定量,并提供了相比之前建立的多能干细胞系或对照多能干细胞系,所感兴趣的多能干细胞系会以何种效率分化成所感兴趣的特定谱系的信息。“总结记分卡”可包含一种或多种感兴趣的多能干细胞系的偏离记分卡和谱系记分卡。
因此,本发明进一步的方面提供了用于对多能干细胞群进行验证和/或监测的方法,所述方法包含通过对选自于如下的至少2种数据集进行监测来生成多能干细胞系记分卡:(i)通过特定基因(如,致癌基因、肿瘤抑制基因和发育基因)的启动子甲基化对特定基因的表观遗传沉默进行的鉴定;(ii)对基因表达(例如发育基因和谱系标志物基因)进行的鉴定;以及(iii)沿不同谱系分化的分化倾向,从而使得能对多能干细胞的特征进行鉴定,以及对哪些多能干细胞系很可能导致干细胞起源的癌症进行预测。
在一些实施方式中,例如,可对给定细胞系的分化倾向进行测定(使用谱系标志物基因的差异基因表达和/或差异修饰的甲基化),接着相比参比或“标准”多能干细胞系对目标基因(例如,在表12A和/或表12C、表13A、表13B或表14中的任何表中所列出的基因中的一些或组合)的DNA甲基化的变化进行测定和/或对目标基因(例如,表12B和/或表12C中的任何表中所列出的基因中的一些或组合,或者选自于表13A、表13B或表14)的基因表达水平的变化进行测定。
如本文所述,所述记分卡包含几个组件:(i)相比参比多能细胞系中目标基因的DNA甲基化的正常变异,对多能细胞中DNA甲基化基因离群值进行的鉴定;(ii)相比参比多能细胞系中目标基因的DNA表达水平的正常变异,对多能细胞中基因表达离群值进行的鉴定;(iii)基于由(i)和(ii)而来的所述DNA甲基化和/或基因表达数据,和/或由已诱导至分化的多能细胞系而来的基因表达/DNA甲基化数据,对细胞分化偏倚(cellulardifferentiation bias)进行的预测。
本发明具有用于对如下细胞的质量和效用进行测定的实质性效用:各种类型的多能干细胞和前体细胞(例如,ES细胞、成体干细胞、造血干细胞、白血病干细胞、皮肤干细胞、肠干细胞、性腺干细胞、脑干细胞、肌肉干细胞(肌肉成肌细胞等)、乳房干细胞、神经干细胞(例如,小脑颗粒神经元祖细胞(cerebellar granule neuron progenitor)等)等);和各种干细胞或前体细胞(例如,如Sparmann&Lohuizen,Nature 6,2006(Nature ReviewsCancer,2006年11月)的表1中所述的细胞,以引用的方式并入本文);以及体外和体内衍生的干细胞(如诱导多能干细胞(iPSC)以及终末分化细胞)。
在本发明的一些方面中,本发明涉及通过对选自于如下的至少2种数据集进行监测来生成多能干细胞系记分卡(所述多能干细胞系记分卡用于验证和/或监测并用作对所述多能干细胞系的总体质量控制):(i)通过特定基因(如,致癌基因、肿瘤抑制基因和发育基因)的启动子甲基化对特定基因的表观遗传沉默进行的鉴定;(ii)对基因表达(例如发育基因和谱系标志物基因)进行的鉴定;以及(iii)沿不同谱系分化的分化倾向,从而使得能对多能干细胞的特征进行鉴定,以及对哪些多能干细胞系很可能导致干细胞起源的癌症进行预测。
在一些实施方式中,本发明提供了用于选择多能干细胞系的方法,所述方法包括:(i)通过将至少一个多能干细胞与试剂(与DNA中的表观遗传修饰差异结合)进行接触,来对多能干细胞系中目标基因集的表观遗传修饰进行测量,然后进行所述表观遗传修饰数据与相同目标基因的参比表观遗传修饰数据的比较;(ii)通过所述多能干细胞的不定向分化和定向分化来对所述多能干细胞系的分化潜能进行测量,并对转录本进行标记以使得能对多个谱系标志物基因的基因表达水平进行检测,然后进行所述分化潜能数据与参比分化潜能数据的比较;以及(iii)选择如下多能干细胞系:相比参比表观遗传修饰水平而言在目标基因的DNA表观遗传修饰上无统计学显著量差异的多能干细胞系,以及相比参比分化潜能而言在沿中胚层谱系、外胚层谱系和内胚层谱系分化的倾向上无统计学显著量差异的多能干细胞系;或者舍弃如下多能干细胞系:相比参比表观遗传修饰水平而言在目标基因的DNA表观遗传修饰上有统计学显著量差异的多能干细胞系,以及相比参比分化潜能而言在沿中胚层谱系、外胚层谱系和内胚层谱系分化的倾向上有统计学显著量差异的多能干细胞系。
在一些实施方式中,所述表观遗传修饰包含对所述多能干细胞系中的目标基因集的表观遗传修饰进行测量,例如,表观遗传修饰可通过选自于下列方法所组成的组中的任一种来进行测量:基于富集的方法(例如,MeDIP、MBD-seq和MethylCap)、基于亚硫酸氢盐测序和亚硫酸氢盐的方法(例如,RRBS、亚硫酸氢盐测序、Infinium、GoldenGate、COBRA、MSP和MethyLight)、以及限制性消化的方法(例如,MRE-seq);或者通过相比于相同目标基因的参比DNA甲基化数据而言,所述多能干细胞的DNA甲基化目标基因的差异转化(differential-conversion)、差异限制性(differential restriction)、差异权重(differentialweight)来进行测量。
在一些实施方式中,所述方法进一步包括:(iv)对所述多能干细胞系中第二目标基因集的表达水平进行测量,并进行所述基因表达数据与相同目标基因的参比基因表达水平的比较;以及(v)选择相比参比基因表达水平而言在所述目标基因的基因表达水平上无统计学显著量差异的多能干细胞系,或舍弃相比参比基因表达水平而言在所述目标基因的基因表达水平上有统计学显著量差异的多能干细胞系。
在一些实施方式中,所述参比DNA甲基化水平为那些DNA甲基化目标基因的正常甲基化变异范围,并且在一些情况下,可为那些DNA甲基化目标基因的DNA甲基化的平均值并任选加上或减去DNA甲基化的标准差(standard variation),其中,所述平均值由多种多能干细胞系(例如,至少5种以上多能干细胞系)中的那些目标基因的DNA甲基化计算得出。
在一些实施方式中,所述参比基因表达水平为那些目标基因的正常变异范围,并且在一些实施方式中,它为那些目标基因表达水平的平均值,其中,所述平均值由多种多能干细胞系(例如,至少5种以上不同多能干细胞系)中的那些目标基因的表达水平计算得出。
在一些实施方式中,基因表达通过微阵列分析(如定量分化分析)测定。
在一些实施方式中,所述参比分化潜能为分化成选自于由如下谱系所组成的组中的谱系的能力:中胚层谱系、内胚层谱系、外胚层谱系、神经元谱系、造血谱系,或它们的任意组合,其中,所述参比分化潜能数据由多种多能干细胞系(例如,至少5种不同多能干细胞系)产生。在一些实施方式中,通过使所述多能干细胞分化(定向分化或者自发分化预定的一段时间)来对测试多能干细胞和/或参比多能干细胞的分化潜能进行测定,并对DNA甲基化和/或基因表达的差异进行测定。
在本发明所有方面的一些实施方式中,DNA甲基化目标基因和/或参比DNA甲基化目标基因选自于由如下基因所组成的组:癌基因、致癌基因、肿瘤抑制基因、发育基因、谱系标志物基因,以及它们的任意组合;并且包括选自于如下基因中的DNA甲基化目标基因和/或参比DNA甲基化目标基因:表12A中所列出的组中的基因、或选自于表13A、表13B或表14中的基因,以及它们的任意组合。在一些实施方式中,致癌基因选自于如下基因:c-Sis、表皮生长因子受体、血小板衍生生长因子受体、血管内皮生长因子受体、HER2/new、酪氨酸激酶的Src家族、酪氨酸激酶的Syk-Zap-70家族、酪氨酸激酶的BTK家族、Raf激酶、细胞周期蛋白依赖性激酶、Ras蛋白以及myc基因。在一些实施方式中,肿瘤抑制基因选自于如下基因:TP53、PTEN、APC、CD95、ST5、ST7和ST14基因。在一些实施方式中,发育基因选自于表7中列出的基因的任意组合。在一些实施方式中,谱系标志物基因选自如下基因:VEGF受体II(KDR)、肌动蛋白α-2平滑肌(ACTA2)、巢蛋白、微管蛋白β3、α-feto蛋白(AFP)、syndecan-4、CD64IFcyRI、Oct-4、β-HCG、β-LH、oct-3、Brachyury T、Fgf-5、nodal、GATA-4、flk-1、Nkx-2.5、EKLF以及Msx3。在一些实施方式中,DNA甲基化目标基因和/或参比DNA甲基化目标基因选自于由如下基因所组成的组:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1、TF,以及它们的任意组合。在一些实施方式中,对所述多能细胞系中的至少约200个目标基因的DNA甲基化进行测量,所述至少约200个目标基因选自于表12A列表中的基因或表13A、表13B或表14中的基因的任意组合,然后与相同的至少200个目标基因集的参比DNA甲基化水平进行比较;或者所述至少约200个目标基因(选自于表12A中所列出的基因或表13A-表13B或表14中的基因的任意组合)选自于表12A所列出的1-500号基因或表13A、表13B或表14中的基因的任意组合;或者所述至少约200个目标基因可选自于表12A中所列出的1-200号基因或表13A、表13B或表14中的基因。在一些实施方式中,对所述多能细胞系中的至少约500个目标基因的DNA甲基化进行测量,所述至少约500个目标基因选自于表12A中所列出的基因的任意组合,然后与相同的至少约500个目标基因集的参比DNA甲基化水平进行比较。在一些实施方式中,所述DNA甲基化的至少约500个目标基因(选自于表12A中所列出的基因或表13A、表13B或表14中的基因的任意组合)选自于表12A中所列出的1-1000号基因或表13A、表13B或表14中的基因的任意组合。
在本发明所有方面的一些实施方式中,基因表达目标基因和/或参比基因表达目标基因选自于表12B中所列出的组,或选自于表13A、表13B或表14,以及它们的任意组合,例如,至少约200个或至少约500个目标基因选自于表12A中所列出的1-500号基因,或至少约1000个目标基因选自于表12A所列出的基因或表13A、表13B或表14的基因的任意组合,或至少约1000个目标基因选自于表12A中所列出的1-2000号基因或表13A、表13B或表14A的任意组合。
在一些实施方式中,相对于参比基因,多能干细胞系中在甲基化上具有统计显著差异的DNA甲基化基因数为10、9、8、7、6、5、4、3、2、1、或0。在一些实施方式中,相对于参比基因,多能干细胞系中在基因表达水平上具有统计显著差异的基因数为10、9、8、7、6、5、4、3、2、1、或0。
在一些实施方式中,多能干细胞为哺乳动物多能干细胞,如人多能干细胞。
本发明的另一方面涉及使用多能干细胞就生物活性对化合物进行筛选。例如,此类实施方式包括(i)任选地,导致或者容许所述多能干细胞沿特定谱系分化;(ii)将所述细胞与测试化合物进行接触;以及(iii)测定所述化合物对所述细胞的任何影响。
在一些实施方式中,化合物选自于由如下物质所组成的组:有机小分子、无机小分子、多糖、肽、蛋白、核酸、由生物材料(如细菌、植物、真菌、动物细胞、动物组织)制得的提取物,以及它们的任意组合,并且能在约0.01nM-约1000mM的浓度范围中使用。在一些实施方式中,筛选为高通量筛选方法。在一些实施方式中,生物活性为在生物分析中引发(elicitation)刺激、抑制、调节、毒性、电刺激或致死响应。在一些实施方式中,生物活性选自于由如下生物活性所组成的组:调节酶活性、使受体失活、刺激受体、调节一种或多种基因的表达水平、调节细胞增殖、调节细胞分裂、调节细胞形态,以及它们的任意组合。在一些实施方式中,特定谱系为疾病的基因型或表型,例如器官、组织或其部分的基因型或表型。
本发明的另一方面涉及通过向受试者给予多能干细胞,使用如本文所公开的方法和记分卡验证和表征的多能干细胞来治疗受试者的用途,例如,对哺乳动物受试者(例如,小鼠或啮齿动物动物模型或人受试者)的治疗(例如用于再生医学和细胞替换/强化疗法)。在一些实施方式中,受试者患有或被诊断为具有选自于由如下疾病或状况(condition)所组成的组中的疾病或状况:癌症、糖尿病、心力衰竭、肌肉损伤、乳糜泻(Celiac Disease)、神经障碍(neurological disorder)、神经退行性障碍、溶酶体贮积病(lysosomal storagedisease),以及它们的任意组合。在一些实施方式中,局部给予所述多能干细胞;或者可选地,给予为将所述多能干细胞移植入所述受试者。
在一些实施方式中,在向受试者给予所述多能干细胞或其分化后代之前,对所述多能干细胞进行分化,例如,沿选自于由如下谱系所组成的组中的谱系进行分化:中胚层谱系、内胚层谱系、外胚层谱系、神经元谱系、造血谱系,以及它们的任意组合;或者分化成如下细胞:产胰岛素细胞(胰细胞、β细胞等)、神经元细胞、肌细胞、皮肤细胞、心肌细胞、肝细胞、血细胞、适应性免疫细胞、固有免疫细胞等。
本发明的另一方面涉及试剂盒,所述试剂盒包含通过使用本文所公开的方法、分析和记分卡选择的多能干细胞。所述试剂盒可进一步包含使用说明。
本发明的另一方面涉及用于对多能细胞的多种性能进行表征的分析,所述分析包含下列分析中的至少2种:(i)DNA甲基化分析;(ii)基因表达分析;以及(iii)分化分析。在一些实施方式中,所述分析可处于试剂盒的形式。在一些实施方式中,由研究者或由服务提供商完成所述分析。在一些实施方式中,所述分析提供了记分卡格式的报告,以根据如本文所公开的方法对多能干细胞系进行验证和/或表征。
在一些实施方式中,所述分析包含DNA甲基化分析,所述DNA甲基化分析为亚硫酸氢盐测序分析、或全基因组亚硫酸氢盐测序分析,或者可为选自于由如下方法所组成的组中的任何DNA甲基化分析:基于富集的方法(例如,MeDIP、MBD-seq和MethylCap)、基于亚硫酸氢盐测序和亚硫酸氢盐的方法(例如,RRBS、亚硫酸氢盐测序、Infinium、GoldenGate、COBRA、MSP、MethyLight)以及限制性消化的方法(例如,MRE-seq)。
在一些实施方式中,所述分析包含基因表达分析,所述基因表达分析为微阵列分析,例如,定量分化分析。在一些实施方式中,所述分析包含分化分析,所述分化分析评估所述多能细胞分化成下列谱系中至少一种的能力:中胚层谱系、内胚层谱系、外胚层谱系、神经元谱系、或造血谱系,其中所述多能细胞分化成特定谱系的能力通过如本文所公开的DNA甲基化分析和/或基因表达分析进行测定;或者可选地,通过免疫染色或FAC分选(使用针对中胚层谱系、内胚层谱系以及外胚层谱系的至少一种标志物的抗体)进行测定。在一些实施方式中,在培养EB至少约0天,例如约0-3天之间、或约3-7天之间、或约7-10天之间、或约10-14天之间、或多于14天后对所述多能细胞分化成特定谱系的能力进行测定。
在一些实施方式中,所述分化分析评估了所述多能细胞沿中胚层谱系分化的能力(通过VEGF受体II(KDR)或肌动蛋白α-2平滑肌(ACTA2)的阳性免疫染色进行测定);或可对所述多能细胞沿外胚层谱系分化的能力进行评估(通过巢蛋白或微管蛋白β3的阳性免疫染色进行测定);或可对所述多能细胞沿内胚层谱系分化的能力进行评估(通过α-feto蛋白(AFP)的阳性免疫染色进行测定)。
在一些实施方式中,所述分析为用于对多种不同的多能干细胞进行分析的高通量分析,所述多种不同的多能干细胞包括来自受试者(例如人或其它哺乳动物受试者)的多种不同的诱导多能干细胞。
本发明的另一方面涉及使用本文所公开的分析,由至少一种或多种多能干细胞系生成记分卡。
本发明的另一方面涉及用于生成多能干细胞记分卡的方法,所述方法包括:(i)对多种多能干细胞系中的第一目标基因集的DNA甲基化进行测量;(ii)对所述多种多能干细胞系中的第二目标基因集的基因表达进行测量;以及(iii)对所述多种多能干细胞系的分化潜能进行测量。在一些实施方式中,所述方法进一步包括(iv)对第一目标基因集中各目标基因的平均甲基化水平进行计算;以及(v)对第二目标基因集中各目标基因的平均基因表达水平进行计算。
本发明的另一方面涉及多能干细胞性能参数的记分卡,所述记分卡包含:(i)第一数据集,包含来自多种多能干细胞系的多种DNA甲基化目标基因的DNA甲基化水平;(ii)第二数据集,包含来自多种多能干细胞系的多种基因表达目标基因的基因表达水平;以及(iii)第三数据集,包含来自多种多能干细胞系的分化成外胚层谱系、中胚层谱系和内胚层谱系的分化倾向水平。
在一些实施方式中,所述记分卡由对至少约500个、至少约1000个、至少约1500个、或至少约200个参比DNA甲基化基因(例如,来自于表12或表12C中所列出的基因的任意组合,或选自于表13A、表13B或表14中的任何DNA甲基化基因)的DNA甲基化水平进行测量衍生而来。
在一些实施方式中,所述记分卡由对至少约500个、至少约1000个、至少约1500个、或至少约200个参比DNA甲基化基因(例如,来自于表12B或表12C中所列出的基因的任意组合,或选自于表13A、表13B或表14中的任何DNA甲基化基因)的基因表达水平进行测量衍生而来。
在一些实施方式中,至少第一和/或第二数据集与数据存储设备相连,例如,所述数据存储设备为位于计算机设备上的数据库。
在一些实施方式中,如本文所公开的记分卡由多种干细胞系而测定,所述多种干细胞系为至少5种、至少10种、至少15种、或至少20种多能干细胞系。在一些实施方式中,如本文所公开的记分卡由一种干细胞系而测定,其中,各分析运行3次以上。在一些实施方式中,当需要“参比记分卡”时,用于生成记分卡的多个干细胞系包含选自于由如下多能干细胞系所组成的组中的至少一种多能干细胞系:HUES64、HUES3、HUES8、HUES53、HUES28、HUES49、HUES9、HUES48、HUES45、HUES1、HUES44、HUES6、H1、HUES62、HUES65、H7、HUES13、HUES63、HUES66,及它们的任意组合。
在一些实施方式中,用于生成记分卡的干细胞系为哺乳动物多能干细胞系,例如,人多能干细胞系,包括胚胎干细胞和/或诱导多能干(iPS)细胞系、和/或成体干细胞(adultstem cells)、或成体干细胞(somatic stem cells)、或自体干细胞。
本发明的另一方面涉及使用如本文所公开的记分卡将诱导多能干细胞与胚胎干细胞系区分开。
本发明的另一方面涉及用于进行如本文所公开的方法的试剂盒,其中,所述试剂盒包含:(i)用于对DNA甲基化状态进行测量的试剂;以及(ii)用于对多能干细胞的分化倾向进行测量的试剂。
本发明的另一方面涉及用于生成多能干细胞的质量保证记分卡的计算机系统,所述计算机系统包含:(i)至少一个存储器,该存储器包含至少1个含有如下步骤的程序:(a)接收多能干细胞系中DNA甲基化目标基因集的DNA甲基化数据,并进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化水平的比较,(b)接收多能干细胞系的分化潜能数据,并进行所述分化潜能数据与参比分化潜能数据的比较,(c)基于DNA甲基化数据与参比DNA甲基化参数的比较和分化潜能数据与参比分化潜能数据的比较,生成质量保证记分卡;以及(ii)用于运行所述程序的处理器。在一些实施方式中,所述系统的程序进一步包含如下步骤:(d)接收多能干细胞系中第二目标基因集的基因表达数据,并进行所述表达数据与相同第二目标基因集的参比基因表达水平的比较;以及(e)基于DNA甲基化数据与参比DNA甲基化参数的比较、分化倾向与参比分化数据的比较以及基因表达数据与参比基因表达水平的比较,生成质量保证记分卡。在一些实施方式中,所述系统进一步包含报告生成模块,所述报告生成模块基于多能干细胞系的质量生成干细胞记分卡报告。在一些实施方式中,所述系统包含存储器,其中,所述存储器包含数据库。在一些实施方式中,所述数据库以分层方式排列所述DNA甲基化基因集,例如,在表12A或表12B中按顺序排列的DNA甲基化基因,或选自于表13A、表13B或表14的DNA甲基化基因,以及在表12B或表12C中按顺序排列的基因表达基因。在一些实施方式中,数据库以分层方式对向不同谱系分化的倾向进行排列。在一些实施方式中,所述存储器经由网络(局域网(LAN)或广域网(例如因特网))与第一计算机相连,其中,经由安全站点或经由密码访问来访问所述网络。
在一些实施方式中,如本文所公开的系统提供了记分卡,所述记分卡提供了对测试多能干细胞系的适当使用、效用或应用的指示。
本发明的另一方面涉及用于生成多能干细胞系的质量保证记分卡的含有指令的计算机可读介质,所述指令包含:(i)接收多能干细胞系中DNA甲基化目标基因集的DNA甲基化数据,并进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化水平的比较;(ii)接收多能干细胞系的分化潜能数据,并进行所述分化潜能数据与参比分化潜能数据的比较;(iii)基于DNA甲基化数据与参比DNA甲基化参数的比较和分化倾向与参比分化数据的比较,生成质量保证记分卡。在一些实施方式中,所述计算机可读介质进一步包含如下指令:(iv)接收多能干细胞系中第二目标基因集的基因表达数据,并进行所述表达数据与相同第二目标基因集的参比基因表达水平的比较;以及(v)基于DNA甲基化数据与参比DNA甲基化参数的比较、分化倾向与参比分化数据的比较以及基因表达数据与参比基因表达水平的比较,生成质量保证记分卡。
本发明的另一方面涉及用于对多能干细胞系的质量进行测定的试剂盒,所述试剂盒包含如下试剂中的至少两类试剂:(i)用于对多个DNA甲基化基因的甲基化状态进行测量的试剂;(ii)用于对多个基因的基因表达水平进行测量的试剂;以及(iii)用于对所述多能干细胞向外胚层谱系、中胚层谱系和内胚层谱系分化的倾向进行测量的试剂。
记分卡
本发明的一个方面涉及多能干细胞性能参数的记分卡,所述记分卡包含:(i)第一数据集,包含来自至少5种多能干细胞群中的多个DNA甲基化目标基因的DNA甲基化水平;(ii)第二数据集,包含来自至少5种多能干细胞群中的多个基因表达目标基因的基因表达水平;以及(iii)第三数据集,包含来自至少5种多能干细胞群的向外胚层、中胚层和内胚层谱系分化的分化倾向水平。在一些实施方式中,所述多个参比DNA甲基化基因为至少约1000种参比DNA甲基化基因、或至少约2000种参比DNA甲基化基因;或者在一些实施方式中,为全基因组的DNA甲基化状态。在一些实施方式中,所述参比DNA甲基化基因为选自于由如下基因所组成的组中的任意基因:癌基因、致癌基因、和肿瘤抑制基因、谱系标志物基因以及发育基因。
在一些实施方式中,所述DNA甲基化目标基因为选自于由如下基因所组成的组中的任何一种基因或它们的任意组合:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1和TF。在一些实施方式中,所述DNA甲基化目标基因为选自于表12A或表12C的基因的任意组合,或者为选自于表13A、表13B或表14的基因的任意组合。在一些实施方式中,对表12A和表12C中所列出的目标基因的启动子区域中的DNA甲基化作用进行测定,然而,本发明包含对所有基因组区域(以及非基因组区域)中的DNA甲基化进行测定,包含表13A、表13B或表14中所列出的基因的启动子区域。在一些实施方式中,在任何基因组区域或特定类型的基因组区域(例如,启动子、增强子、绝缘子元件(insulator elements)、CpG岛、CpG岛海滩(CpG island shores)等)中对DNA甲基化进行测定。另外,可在非编码基因以及非编码转录本(例如,天然反义转录本(NAT)、microRNA(miRNA)基因以及所有其它类型的核酸和/或RNA转录本)中对DNA甲基化作用进行测定。在一些实施方式中,还可以使用DNA甲基化数据来直接获得高度变异的区域,并可使用DNA序列数据来预测对表观遗传变化敏感的基因组区域。此外,在一些实施方式中,可以使用之前知道的涉及癌症、正常与异常发育、以及疾病的基因和基因组区域作为候选。在一些实施方式中,DNA甲基化目标基因为至少约200种、或至少约300种、或至少约400种、或至少约500种、或至少约600种、或至少约800种、或至少约1000种、或至少约1500种、或至少约2000种、或至少约3000种、或至少约4000种、或至少约5000种基因的,所述基因为选自于表12A和/或表12C中所列出的基因,或选自于表13A、表13B或表14中的基因的任意组合。在一些实施方式中,所述基因为选自于表12A或表12C中所列出的1-200号、或1-500号、或1-1000号基因或者表13A、表13B或表14中的基因的基因集的任意组合。
在一些实施方式中,所述记分卡的第一数据集和第二数据集被连接至数据存储设备,例如,所述数据存储设备为位于计算机上的数据库。
在一些实施方式中,将至少15种多能干细胞系用于生成所述记分卡的第一数据集或第二数据集或第三数据集。在一些实施方式中,第一数据集、第二数据集或第三数据集从选自于下列多能干细胞的组中的至少5种以上、或至少6种、或至少7种、或至少8种、或至少9种、或至少10种、或至少11种、或至少12种、或至少13种、或至少14种、或至少15种、或至少16种、或至少17种、或至少18种、或所有19种中获得:HUES64、HUES3、HUES8、HUES53、HUES28、HUES49、HUES9、HUES48、HUES45、HUES1、HUES44、HUES6、H1、HUES62、HUES65、H7、HUES13、HUES63和HUES66。
在一些实施方式中,用于生成所述记分卡数据集的多能干细胞群为哺乳动物多能干细胞群(如人多能干细胞群)、或诱导多能干(iPS)细胞群、或胚胎干细胞群、或成体干细胞群、或自体干细胞群、或胚胎干(ES)干细胞群。
在一些实施方式中,可将如本文所公开的记分卡与感兴趣的多能干细胞群的DNA甲基化水平、基因表达水平和分化倾向水平进行比较;此外,通过对最适宜沿某一谱系分化和/或具有不需要特征的倾向(例如具有发展成癌细胞的易感性的多能干细胞)进行预测,可将其用于验证和/或预测多能干细胞群的表现。因此,在一些实施方式中,可将所述记分卡用于进行选择的方法,例如,正向选择感兴趣且具有所需特征(如,沿特定谱系的高分化潜能)的多能干细胞群;和/或逆向选择(例如,鉴定然后舍弃)具有不需要特征的细胞,例如,具有发展成癌细胞的易感性的细胞。
在一些实施方式中,具有如下特征的多能干细胞系中的基因将被认为是表观遗传离群DNA甲基化基因:目标基因的DNA甲基化水平相比多能干细胞中该基因的正常DNA甲基化变异(例如,正常参比值),DNA甲基化水平的绝对差异>20%点和/或目标基因的DNA甲基化水平是统计显著性的(FDR<5%)。具有如下特征的多能干细胞将被认为是离群多能干细胞:相比参比多能干细胞,具有多个(例如,总计至少约5个、或至少约6个、或至少约7个、或至少约8个、或至少约5-10个、或至少约10-15个、或至少约10-50个、或至少约50-100个、或至少约100-150个、或至少约150-200个、或200个以上)表观遗传离群DNA甲基化基因的多能干细胞。因此,可将此类多能干细胞用于逆向选择(例如,分离并舍弃)具有不需要特征的细胞。
在一些实施方式中,具有如下特征的多能干细胞系中的基因将被认为是表观遗传离群DNA甲基化癌基因:目标癌基因的DNA甲基化水平相比多能干细胞中该目标癌基因的正常DNA甲基化变异(例如,癌基因的正常参比DNA甲基化水平),DNA甲基化水平的绝对差异>20%点和/或目标癌基因的DNA甲基化水平是统计显著性的(FDR<5%)。具有如下特征的多能干细胞将被认为是离群多能干细胞:相比参比多能干细胞,具有多个(例如,总计至少约5个、或至少约6个、或至少约7个、或至少约8个、或至少约5-10个、或至少约10-15个、或至少约10-50个、或50个以上)表观遗传离群DNA甲基化癌基因的多能干细胞。因此,可将此类多能干细胞用于逆向选择(例如,分离并舍弃)具有不需要特征(如,癌基因DNA甲基化的升高或降低)的细胞。
在一些实施方式中,具有如下特征的多能干细胞系中的基因将被认为是基因表达离群基因:目标基因的基因表达水平相比多能干细胞中该基因的正常基因表达变异(例如,正常参比值),基因表达水平的绝对差异具有>1log-2倍的变化和/或目标基因的基因表达水平是统计显著性的(FDR<10%)。具有如下特征的多能干细胞将被认为是离群多能干细胞:相比参比多能干细胞,具有多个(例如,总计至少约5个、或至少约6个、或至少约7个、或至少约8个、或至少约5-10个、或至少约10-15个、或至少约10-50个、或至少约50-100个、或以上)离群基因表达基因的多能干细胞。因此,可将此类多能干细胞用于逆向选择(例如,分离并舍弃)具有不需要特征的细胞。
在一些实施方式中,具有如下特征的多能干细胞系中的基因将被认为是分化离群基因:谱系基因的基因表达水平相比多能干细胞中该谱系基因的正常基因表达变异(例如,正常参比值),谱系基因的基因表达水平的绝对差异具有>1log-2倍的变化和/或谱系基因的基因表达水平是统计显著性的(FDR<5%)。具有如下特征的多能干细胞将被认为是离群多能干细胞:相比参比多能干细胞,具有多个(例如,总计至少约5个、或至少约6个、或至少约7个、或至少约8个、或至少约5-10个、或至少约10-15个、或至少约10-50个、或至少约50-100个、或以上)离群谱系基因表达基因的多能干细胞,所述离群多能干细胞可能不会沿与参比多能干细胞系相同的谱系进行分化。因此,可将此类多能干细胞用于逆向选择(例如,分离并舍弃)具有不需要特征的细胞(例如,可能不沿特定谱系进行分化的细胞)。
用于生成优选多能干细胞的记分卡的方法
本发明的另一方面涉及用于生成多能干细胞记分卡的方法,所述方法包括:(i)对多种多能干细胞群中的目标基因集的DNA甲基化进行测量;(ii)对所述多种多能干细胞系中的第二目标基因集的基因表达进行测量;以及(iii)对所述多种多能干细胞系的分化潜能进行测量。在一些实施方式中,生成多能干细胞记分卡的方法可用于生成含有如下值的记分卡:从多种多能干细胞系(例如,至少5种、或至少6种、或至少7种、或至少8种、或至少9种、或至少10种、或至少15种、或至少20种、或至少30种、或至少40种、或多于40种的不同多能干细胞群)中而得的DNA甲基化正常变异值、DNA基因表达正常变异值以及正常分化倾向值。
分析
本发明的另一方面涉及用于对多能细胞的多种性能进行表征的分析,所述分析包含以下分析中的至少2种:(i)DNA甲基化分析;(ii)基因表达分析;以及(iii)分化分析。
在一些实施方式中,所述DNA甲基化分析为亚硫酸氢盐测序分析、或全基因组测序分析(例如,简化表观亚硫酸氢盐测序(RRBS))。在一些实施方式中,DNA甲基化分析为基于富集的DNA甲基化分析(例如MeDIP)或基于限制性酶的DNA甲基化分析(例如,CHARM或HELP),或者如本文和实施例中所公开的其它DNA甲基化分析手段。在一些实施方式中,所述DNA甲基化分析为Illumina甲基化分析。在一些实施方式中,所述基因表达分析为微阵列分析。
在一些实施方式中,所述分化倾向分析为定量分化分析,例如,能对多能细胞分化成下列谱系中至少一种的能力进行评估的分化分析:中胚层谱系、内胚层谱系和外胚层谱系,神经元谱系,造血谱系。在一些实施方式中,通过拟胚体(EB)的基因表达谱结合评估分化倾向的生物信息学算法来对多能细胞分化成下列谱系中至少一种的能力进行测定:中胚层谱系、内胚层谱系和外胚层谱系,其中,对如表7中所公开的谱系基因的基因表达水平进行测定,谱系标志物基因的基因表达水平上的统计学显著差异(FDR<5%)的变化和/或谱系标志物基因的基因表达水平上>1log-2倍的变化将表明沿与参比多能干细胞系相比而言不同的谱系进行分化的倾向。在可选实施方式中,使用针对中胚层谱系、内胚层谱系和外胚层谱系的至少一种标志物的抗体,通过免疫染色或FAC分选来对多能细胞分化成下列谱系中至少一种的能力进行测定:中胚层谱系、内胚层谱系和外胚层谱系。在一些实施方式中,在处于EB至少约7天后,通过对所述多能干细胞进行免疫染色来对所述多能细胞分化成下列谱系中至少一种的能力进行测定:中胚层谱系、内胚层谱系和外胚层谱系。中胚层谱系、内胚层谱系和外胚层谱系的谱系标志物的实例已为本领域技术人员所熟知,并包括但不限于:中胚层谱系标志物VEGF受体II(KDR)或肌动蛋白α-2平滑肌(ACTA2);外胚层谱系标志物巢蛋白或微管蛋白β3;以及内胚层谱系标志物α-feto蛋白(AFP)。
在一些实施方式中,所述分析为用于对多种不同多能干细胞进行分析的高通量分析,例如,使得能够对源自体细胞重编程的多种不同的诱导多能干细胞进行评估,所述体细胞从相同受试者或不同受试者中获得,例如,哺乳动物受试者或人类受试者。
在一些实施方式中,如本文中所公开的分析可用于从至少一种、或多种多能干细胞群中生成如本文所公开的记分卡。
表观遗传图谱
不希望受理论所束缚,表观遗传事件在基因表达中起重要作用,并在癌症的发育和进展中很重要。表观遗传变化(如DNA甲基化)在正常哺乳动物发育中起到调节基因表达的作用。启动子超甲基化通过关键生长调节子(如肿瘤抑制基因)的转录沉默也在癌症中起到主要作用。基因(如肿瘤抑制基因)功能的丧失可通过表观遗传变化(如DNA甲基化)而发生。术语“表观遗传”指基因表达上的可遗传变化,所述变化并不是由所述基因核苷酸序列的改变引起的。例如,当DNA在基因启动子区域(转录在此处开始)被甲基化时,基因失活或被沉默。表观遗传修饰不受限制地包括例如DNA甲基化、染色质的翻译后修饰、非编码RNA、以及对染色质的非共价结构修饰(如染色质的凝聚和去凝聚)。在有些情况下,表观遗传修饰还可为蛋白翻译后修饰(PTM)的形式,包括:DNA甲基化、泛素化、磷酸化、糖基化、SUMO化、乙酰化、S-亚硝基化或亚硝基化、瓜氨酸化或去亚胺基化、类泛素化、OClcNAc、ADP核糖基化、羟基化、fattenylation、ufmylation、异戊烯基化、豆蔻酰化、S-棕榈酰化、酪氨酸硫酸盐化、甲酰化和羧化。
在本发明的方法、系统和试剂盒的一些实施方式中,对感兴趣的多能干细胞系中的表观遗传修饰水平进行测定。在一些实施方式中,所述表观遗传修饰为DNA甲基化。在一些实施方式中,对DNA甲基化目标基因的甲基化进行测定。因此,在一些实施方式中,DNA甲基化目标基因是想要对基因表达的抑制(例如表观遗传沉默)进行测定的任何基因。在一些实施方式中,所述DNA甲基化目标基因为癌基因,例如,致癌基因或肿瘤抑制基因。在一些实施方式中,所述DNA甲基化目标基因为发育基因;在一些实施方式中,所述DNA甲基化目标基因为谱系标志物基因。
在一些实施方式中,对选自于如下基因组中的任何基因的DNA甲基化进行测定或测量:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1、TF。在一些实施方式中,所述DNA甲基化为具有可变异的DNA甲基化水平的基因,如DAZL、LEFTY2、CXCL5、MEG3、S100A6、CAT、TF、和CD14。在一些实施方式中,所述DNA甲基化为DNA甲基化变异性低的基因,如,PAX6、DNMT3B、GATA6、GAPDH、SOX2、SNAI1和BMP4。
在一些实施方式中,对参比DNA甲基化目标基因集的DNA甲基化进行测定或测量,其中所述DNA甲基化参比基因可为癌基因、和/或发育基因,并在表12A中公开。在一些实施方式中,用于第一参比DNA甲基化基因集的基因为至少约200种、或至少约300种、或至少约400种、或至少约500种、或至少约600种、或至少约800种、或至少约1000种、或至少约1500种、或至少约2000种、或至少约3000种、或至少约4000种、或至少约5000种基因的任意组合,所述基因选自于表12A和/或表12C中所列出的基因,或选自于表13A、表13B或表14。在一些实施方式中,所述基因为选自于表12A或表12C中所列出的1-200号、或1-500号、或1-1000号基因的基因集的任意组合,或者为选自于表13A、表13B或表14的基因集的任意组合。
在一些实施方式中,对下列140个基因的集中任意组合的至少50种基因、或至少100种基因的DNA甲基化进行测量:PON3、CD14、PEG3AS、CRCT1、LCE5A、HIST1、H2BB、HIST1、H3C、CRCT1、LCE5A、PTK2B、TF、CAT、SLC38A11、ZNF528、CALCB、ERAS、INGX、TMPRSS12、ZNF248、ZNF876P、SLC17A3、TDRD5、LCE3A、ASB3、GPR75、ZNF354C、PEG3AS、KAAG1、PCDHA2、HPDL、ZNF737、AGBL2、COMT、TXNRD2、SLC30A8、H2AFZP1、CTSF、ZNF833、S100A5、S100A6、PRDM9、CYP2E1、ZNF177、CR1L、ZNF572、MOS、FAM70A、GP5、PAPOLB、ZDHHC15、HSF5、CDX4、GOLGA8B、KLF8、ARMCX5、CBLN4、POU3F4、LYNX1、DENND2D、CYP2E1、ZNF562、PPYR1、KLHL34、ZNF562、TMLHE、CCDC11、GYG2P、TCEAL2、ZNF454、ZNF667、TRIM4、FAM24B、ZNF397OS、PAQR6、DENND2D、LYNX1、BHMT2、DMGDH、PF4、LTF、NAP1L6、ALOX15B、CES1、PPP1R13L、COMT、TXNRD2、LYNX1、DNAJC15、ARMCX1、TRPM2、GOLGA8A、ZPBP、ZNF630、BHMT2、DMGDH、SLC7A3、SLFN13、PLEK2、DYNLT3、SLC2A14、SPATS1、SLCO1A2、TCEAL6、SLC2A14、TAF9B、KIAA1210、CNTD2、PLD6、CFLAR、PHF8、TBPL2、RWDD2B、DEFB124、REM1、TCEAL6、CD14、BCL2L10、ZNF630、DCDC2、CRYGD、ZNF440、RFPL2、MYCL2、TRPM2、MEG3、TEKT4、FAM104B、EDNRB、OSGIN1、NKAP、NR0B1、SPIN3、NDUFA1、RNF113A、ZNF726、ZNF502以及C3orf62。
因为目前许多基因的功能已为人所知,可对癌基因的差异表达和/或DNA甲基化赋予假定效果(putative effects):如癌症风险的升高或降低、在分化成特定细胞类型和谱系能力上的差异、耐药性以及用于疾病建模、药物筛选和再生疗法的综合有用性。
癌细胞含有大量异常的表观遗传改变,包括启动子CpG岛DNA超甲基化和染色质结构与组蛋白修饰中的相关改变。癌症中肿瘤抑制基因的异常表观遗传沉默涉及如下方面的变化:基因表达、染色质结构、组蛋白修饰以及胞嘧啶-5DNA甲基化。
因此,在一些实施方式中,所述DNA甲基化目标基因包含癌基因(例如,致癌基因以及肿瘤抑制基因)和发育基因,以及谱系标志物基因。例如,当检测到致癌基因启动子中超甲基化的存在时,这表明发生了表观遗传沉默并且所述致癌基因被抑制或永久性地被沉默,并可能是所希望的特征。然而,甲基化水平降低可能表明表观遗传沉默的缺失以及所述致癌基因可被表达,这表明所述多能干细胞具有自我更新的易感性和恶性转化的高潜能。类似地,当所述癌基因为肿瘤抑制基因时,超甲基化启动子的存在或甲基化水平统计学上显著高(相比该肿瘤抑制基因的甲基化正常变异)表明表观遗传沉默以及所述肿瘤抑制基因的表达被永久性抑制,并表明所述多能干细胞具有不断自我更新的易感性和恶性转化的高潜能。因此,致癌基因和/或肿瘤抑制基因的甲基化状态可用于预测多能干细胞是否具有不断自我更新的易感性和恶性转化的高潜能。此外,在一些实施方式中,对癌基因集(例如,致癌基因和肿瘤抑制基因)的DNA甲基化水平进行测量和测定使得能够预测所述多能干细胞是否具有不断自我更新的易感性和恶性转化的高潜能。
在可选实施方式中,对谱系特异性基因集(例如,谱系标志物基因)或发育特异性基因集中的DNA甲基化水平进行测量和测定,使得能够预测所述多能干细胞是否会沿特定发育途径或向表达所述谱系标志物的细胞类型进行分化。
重要的是,在如本文所公开的分化倾向分析和方法中,将多能干细胞进行培养并让其自发分化预定的时间段后,对谱系特异性(例如,谱系标志物基因)或发育特异性基因集的DNA甲基化水平进行测定,其中,从谱系标志物基因集的DNA甲基化分析中产生的结果使得能够预测出所述多能干细胞系的谱系分化偏倚。在分化倾向分析的一些实施方式中,沿特定谱系定向分化后,在所述多能干细胞系上进行谱系标志物基因集的DNA甲基化分析。
在甲基化目标基因为发育基因或谱系标志物基因的情况下,基因启动子超甲基化的存在或DNA甲基化水平在统计上显著高(相比该发育基因或谱系标志物基因DNA甲基化的正常变异)表明表观遗传沉默以及所述发育基因或谱系标志物基因的表达被永久性地抑制,这表明所述多能干细胞具有不表达所述发育基因和/或谱系标志物的易感性,并因此预测出其不沿所述发育基因的发育途径进行分化或不会分化成表达所述谱系标志物的细胞类型。在可选的情况下,当多能干细胞中的发育基因或谱系标志物基因的甲基化水平在该基因的甲基化水平正常变异范围之内时,可将其用于预测所述多能干细胞能够沿所述发育基因的发育途径进行分化或者能够向表达所述谱系标志物的细胞类型进行分化。因此,发育基因和/或谱系标志物的甲基化状态可用于预测多能干细胞是否能沿特定发育途径进行分化或是否能分化成表达所述谱系标志物的细胞类型。
虽然如上所述的DNA甲基化的测量主要专注于单个基因的效果,在一些实施方式中,例如为预测细胞系的质量(例如,发展成癌细胞系的可能)和效用(例如,沿或不沿所感兴趣的特定谱系分化的可能),记分卡测量了多个基因(例如,“癌基因”集中的多个基因、或“谱系标志物基因”集中的多个基因)DNA甲基化的组合数据。因此,可选择特定的DNA甲基化目标基因集来开发用于对多能干细胞系进行灵敏准确表征的“定制记分卡(customizedscorecard)”,以对期望或不期望的特定特征进行鉴定。这是使用如本文所公开的记分卡对特定多能干细胞系的质量和效用进行测定的关键优势之一。
在本发明的一些实施方式中,对PRC2基因;以及Dlx、Irx、Lhx和Pax基因家族(涉及神经发生、造血作用以及体轴模式(axial patterning));或Fox、Sox、Gata和Tbx家族(涉及发育过程)的其它转录因子的DNA甲基化状态进行了测定。
如本文中所论述的,在一些实施方式中,具有如下特征的多能干细胞系中的基因将被认为是表观遗传离群DNA甲基化基因:目标基因的DNA甲基化水平相比多能干细胞中该基因的正常DNA甲基化变异(例如,正常参比值),DNA甲基化水平的绝对差异>20%点和/或目标基因的DNA甲基化水平是统计显著性的(FDR<5%)。具有如下特征的多能干细胞将被认为是离群多能干细胞:相比参比多能干细胞,具有多种(例如,总计至少约5种、或至少约6种、或至少约7种、或至少约8种、或至少约5-10种、或至少约10-15种、或至少约10-50种、或至少约50-100种、或至少约100-150种、或至少约150-200种、或200种以上)表观遗传离群DNA甲基化基因的多能干细胞。因此,可将此类多能干细胞用于逆向选择(例如,分离并舍弃)具有不需要特征的细胞。
在一些实施方式中,具有如下特征的多能干细胞系中的基因将被认为是表观遗传离群DNA甲基化癌基因:目标癌基因的DNA甲基化水平相比多能干细胞中该目标癌基因的正常DNA甲基化变异(例如,癌基因的正常参比DNA甲基化水平),DNA甲基化水平的绝对差异>20%点和/或目标癌基因的DNA甲基化水平是统计显著性的(FDR<5%)。具有如下特征的多能干细胞将被认为是离群多能干细胞:相比参比多能干细胞,具有多种(例如,总计至少约5种、或至少约6种、或至少约7种、或至少约8种、或至少约5-10种、或至少约10-15种、或至少约10-50种、或50种以上)表观遗传离群DNA甲基化癌基因的多能干细胞。因此,可将此类多能干细胞用于逆向选择(例如,分离并舍弃)具有不需要特征(如,癌基因DNA甲基化的升高或降低)的细胞。
DNA甲基化方法以及分析
可使用本领域技术人员通常已知的任何方法来测量DNA甲基化,所述方法包括但不限于:基于富集的方法(例如MeDIP、MBD-seq和MethylCap)、基于亚硫酸氢盐的方法(例如,RRBS、亚硫酸氢盐测序、Infinium、GoldenGate、COBRA、MSP、MethyLight)以及限制性消化的方法(例如,MRE-seq)。在一个实施方式中,用于表观遗传谱和表观遗传图谱的方法为全基因组表观遗传图谱。可使用本领域技术人员已知的用于多能干细胞系表观遗传图谱的任何方法,所述方法包括,例如简化表观亚硫酸氢盐测序(RRBS),以及美国专利申请US2010/0172880中所公开的方法,通过引用将其整体并入本文。其它DNA甲基化分析在美国申请US2008/0213789和US2010/0075331以及美国专利6,960,434和7,425,415中公开,通过引用将它们整体并入本文。Bock等在“Genome-wide mapping of DNAmethylation:aquantitative technology comparison”(通过引用将其整体并入本文)中也描述了用于对多能干细胞的DNA甲基化进行测量的方法,其中,本发明人对产生多能干细胞的准确DNA甲基化数据的多种DNA甲基化方法(MeDIP-seq:甲基化DNA免疫沉淀反应;MethylCap-seq:通过亲合纯化的甲基化DNA捕获;RRBS:简化表观亚硫酸氢盐测序;以及InfiniumHumanMethylation assay)进行了评价。
在一些实施方式中,DNA甲基化分析为种特异性的(species-specific),因此使用小鼠胚胎成纤维细胞作为用于人多能干细胞的滋养层(feeder layer)不会干扰到表观遗传分析。
已开发出若干种能在基因组规模进行DNA甲基化谱的方法。这些方法中的大多数方法将利用微阵列或高通量测序进行的DNA分析与如下4种方式中的1种结合(将DNA甲基化模式转变成DNA序列信息或富集库(library enrichment)):(i)甲基化DNA免疫沉淀反应(MeDIP)使用特异性针对5-甲基-胞嘧啶的抗体来从被声波破碎的DNA11中回收甲基化片段;(ii)通过亲合纯化进行的甲基化DNA捕获(MethylCap)使用甲基结合结构域蛋白来获得具有相似甲基化水平的DNA部分;(iii)基于亚硫酸氢盐的方法利用选择性地将未甲基化(而非甲基化的)的胞嘧啶转换成尿嘧啶的化学反应,由此向所述DNA序列中引入了甲基化特异的单核苷酸多态性;(iv)甲基化特异性消化使用原核生物的限制性酶,以甲基化特异性的方式分离(fractionate)DNA。
本发明人已预先对4种流行的方法(所述方法特别注重其在生物医学研究和生物标志物的开发上的效用)进行了评估,所述方法包括MeDIP-seq、MethylCap-seq、RRBS和infinium HumanMethylation分析(参见Bock等的“Genome-wide mapping of DNAmethylation:a quantitative technology comparison”)。基于如下考虑,这些方法对于本发明的方法、系统和分析是有用的:(i)所有4种方法相对较易建立,因为其详细的方案已公开和/或可得到商业化的试剂盒;(ii)RRBS优于其它的全基因组亚硫酸氢盐测序,因为其每样品(per-sample)的成本与其它方法相当,并对大样品容量而言也是能实现的;(iii)Infinium HumanMethylation分析对于如本文所公开的方法、系统和分析是有用的,因为其用途广泛并易于与已有的基因分型渠道(pipelines)进行整合,并且该方法还为基于微阵列的方法。在一些实施方式中,可将利用微阵列和/或甲基化特异性消化的其它DNA甲基化方法用于如本文所公开的方法、系统和分析,因为它们已在之前进行了基准测试(benchmarked)。在本文的实施例中,在方法部分中的小标题为“其它DNA甲基化图谱方法”的部分公开了进行这些分析的方法和所述分析的日期。
已经开发出了很多不同的表观遗传谱技术(例如,Laird,P.W.,Hum MoI Genet14,R65-R76,2005;Laird,P.W.,Nat Rev Cancer 3,253-66,2003;Squazzo,S.L.等,GenomeRes 16,890-900,2006;以及Lieb,J.D.等,Cytogenet Genome Res 114,1-15,2006,将其全部通过引用并入本文)。这些可大体分为染色质综合分析(chromatin interrogation)技术(主要依赖于使用针对特定染色质组分或组蛋白修饰的抗体的染色质免疫沉淀反应);以及DNA甲基化分析技术。可将染色质免疫沉淀反应与高密度基因组瓦片微阵列杂交(ChIP-Chip)结合,以获得综合的基因组数据。然而,染色质免疫沉淀反应不能检测到少部分细胞的表观遗传反常,而DNA甲基化分析已经成功地应用于对癌症患者血流中来源于肿瘤的游离DNA的高灵敏检测(Laird,P.W.,Nat Rev Cancer 3,253-66,2003)。优选地,使用灵敏的、准确的、基于荧光的甲基化特异性PCR分析(例如,METHYLIGHTTM),所述分析能检测到10,000倍过量的非甲基化分子中的异常甲基化的分子(Eads,CA.等,Nucleic Acids Res 28,E32,2000);或使用METHYLIGHTTM的更灵敏的变型,它能对体积非常大或非常过量的非甲基化分子中的单个异常甲基化DNA分子进行检测。在特定的方面,如本申请人之前所述来进行METHYLIGHTTM分析(例如,Weisenberger,DJ.等,Nat Genet 38:787-793,2006;Weisenberger等,Nucleic Acids Res,33:6823-6836,2005;Siegmund等,Bioinformatics25,25,2004;Eads等,Nucleic Acids Res 28,E32,2000;Virmani等,Cancer EpidemiolBiomarkers Prev 11:291-297,2002;Uhlmann等,Int J Cancer 106:52-9,2003;Ehrlich等,Oncogene 25:2636-2645,2006;Eads等,Cancer Res 61:3410-3418,2001;Ehrlich等,Oncogene 21,6694-6702,2002;Marjoram等,BMC Bioinformatics 7,361,2006;Eads等,Cancer Res 60:5021-5026,2000;Marchevsky等,Mol Diagn 6:28-36,2004;Sarter等,HumGenet 117:402-403,2005;Trinh等,Methods 25:456-462,2001;Ogino等,Gut 55:1000-1006,2006;Ogino等,J Mol Diagn 8:209-217,2006;以及Woodson,K.等,CancerEpidemiol Biomarkers Prev 14:1219-1223,2005)。
例如可将高通量Illumina平台用于在收集的大量人ES细胞DNA样品(或其它衍生物和/或前体细胞群)中对PRC2目标(或其它目标)的异常DNA甲基化进行筛查,然后可用METHYLIGHTTM以及METHYLIGHTTM变型来对有限数量位点上的异常DNA甲基化进行灵敏地检测(例如,在细胞培养和分化期间特定数量的细胞系中)。
Illumina DNA Methylation Profiling.Illumina,Inc.(San Diego)最近基于它们的GOLDENGATETM平台开发出了灵活的DNA甲基化分析技术,所述技术可在单个板上综合分析96个不同样品的1,536个不同位点(Bibikova,M.et al.Genome Res 16:383-393,2006)。最近,Illumina报道称,这一平台可用于对人胚胎干细胞中的独特的表观遗传标记进行鉴定(Bibikova,M.等,Genome Res 16:1075-83,200)。因此,优选使用Illumina分析平台。例如可将高通量Illumina平台用于在收集的大量人ES细胞DNA样品(或其它衍生物和/或前体细胞群)中对PRC2目标(或其它目标)的异常DNA甲基化进行筛查,然后可用MethyLight以及MethyLight变型来对有限数量位点上的异常DNA甲基化进行灵敏地检测(例如,在细胞培养和分化期间特定数量的细胞系中)。
在DNA甲基化数据的分析和聚类、以及在可优选使用的DNA甲基化标志物的选择上有着丰富的经验(例如,Weisenberger,DJ.等,Nat Genet 38:787-793,2006;Siegmund等,Bioinformatics 25,25,2004;Virmani等,Cancer Epidemiol Biomarkers Prev 11:291-297,2002;Marjoram等,Bioinformatics 7,361,2006;Siegmund等,Cancer EpidemiolBiomarkers Prev 15:567-572,2006;以及Siegmun&Laird,Methods 27:170-178,2002,将其所有通过引用并入本文)。例如,根据本文所例示的方法的教导,使用分级策略(stepwisestrategies)(例如,Weisenberger等,Nat Genet38:787-793,2006,并入本文)来提供DNA甲基化标志物,所述标志物为ES细胞中致癌表观遗传沉默的目标。
仅以举例的方式,可由服务提供商(例如,表观基因组学(Berlin)及其它服务提供商)来进行甲基化分析。简言之,在对样品进行质量控制后,将基因组DNA用亚硫酸氢钠处理。对具体基因的感兴趣区域设计PCR引物。对感兴趣的选定基因(例如,DNA甲基化目标基因,如在表12A和/或表12C中列出的基因,或选自于表13A、表13B或表14的任何基因)进行评估。例如,如果待评估的一种DNA甲基化目标基因为POU5F1(注释为OCT4人直系同源基因)和NANOG基因:POU5F1基因(参考序列:NM.sub.--002701)AMP1000122,位于注释为Ensembl转录本POUF1_HUMAN(ENST00000259915)的59UTR,TSS上游150bp;NANOG基因(参考序列:NM.sub.-024865)AMP1000123,位于注释为Ensembl转录本NANOG_HUMAN(ENST00000229307)的59UTR,TSS上游25bp。将下列亚硫酸氢盐引物用于PCR以及测序:POU5F15’-ATGGTGTTTGTGGAAGGGG-AA-3’(SEQ ID NO:1)和5’-TCCAAACAACTAAAATATACAAAACCT-3’(SEQID NO:2);NANOG5’-TAATATGAGGTAATTAGTTTAGTTTAGT-3’(SEQ ID NO:3)和5’-TAATTTCAAACTCTAACTTCAAATAAT-3’(SEQ ID NO:4)。
基因表达谱
在一些实施方式中,所述分析,系统和方法包含定量基因谱分析,如微阵列等。本领域技术人员通常已知的任何用于测定基因表达水平的方法均被涵盖以用于本发明所公开的方法、系统和分析中,所述方法包括Affymetrix微阵列方法,以及其它测量DNA或转录本表达的方法。在一些实施方式中,使用cDNA和RNA测序、基于成像的方法(如NanoString)和各种使用PCR以及qPCR的方法测量基因表达。用于这些方法的归一化已被广泛描述。本发明人使用了gcRMA算法来对Affymetrix微阵列数据进行归一化。
在一些实施方式中,在基因表达目标基因集中对基因表达水平进行测量,其中,所述基因表达目标基因可为癌基因、和/或发育基因,并公开于表12B中。在一些实施方式中,在本发明的方法、系统和分析中测量的是基因表达目标基因集,所述基因集为至少约200种、或至少约300种、或至少约400种、或至少约500种、或至少约600种、或至少约800种、或至少约1000种、或至少约1500种、或至少约2000种、或至少约3000种、或至少约4000种、或至少约5000种基因的任意组合,所述基因选自于表12B和/或表12C中的基因列表,或选自于表13A、表13B或表14中所列出的基因列表。在一些实施方式中,所述基因为选自于表12B或表12C中列出的1-200号、或1-500号、或1-500号、或1-1000号基因的基因集的任意组合,或选自于表13A、表13B或表14中列出的基因列表中的基因集的任意组合。
在一些实施方式中,测量下列134种基因的集中任意组合的至少50种基因、或至少100种基因的DNA甲基化:PON3、CD14、PEG3AS、CRCT1、LCE5A、HIST1、H2BB、HIST1、H3C、CRCT1、LCE5A、PTK2B、TF、CAT、SLC38A11、ZNF528、CALCB、ERAS、INGX、TMPRSS12、ZNF248、ZNF876P、SLC17A3、TDRD5、LCE3A、ASB3、GPR75、ZNF354C、PEG3AS、KAAG1、PCDHA2、HPDL、ZNF737、AGBL2、COMT、TXNRD2、SLC30A8、H2AFZP1、CTSF、ZNF833、S100A5、S100A6、PRDM9、CYP2E1、ZNF177、CR1L、ZNF572、MOS、FAM70A、GP5、PAPOLB、ZDHHC15、HSF5、CDX4、GOLGA8B、KLF8、ARMCX5、CBLN4、POU3F4、LYNX1、DENND2D、CYP2E1、ZNF562、PPYR1、KLHL34、ZNF562、TMLHE、CCDC11、GYG2P、TCEAL2、ZNF454、TRIM4、FAM24B、ZNF397OS、PAQR6、DENND2D、LYNX1、BHMT2、DMGDH、PF4、LTF、NAP1L6、ALOX15B、CES1、PPP1R13L、COMT、TXNRD2、LYNX1、DNAJC15、ARMCX1、TRPM2、GOLGA8A、ZPBP、ZNF630、BHMT2、DMGDH、SLC7A3、SLFN13、PLEK2、DYNLT3、SLC2A14、SPATS1、SLCO1A2、TCEAL6、SLC2A14、TAF9B、KIAA1210、CNTD2、PLD6、CFLAR、PHF8、TBPL2、RWDD2B、DEFB124、REM1、TCEAL6、BCL2L10、ZNF630、DCDC2、CRYGD、ZNF440、RFPL2、MYCL2、TRPM2、MEG3、TEKT4、FAM104B、EDNRB、OSGIN1、NKAP、NR0B1、SPIN3、SPIN3、NDUFA1、RNF113A、ZNF726。
在可选实施方式中,测量并测定谱系特异性基因集(例如,谱系标志物基因)或发育特异性基因集中的基因表达,这使得能够预测所述多能干细胞是否能沿特定发育途径分化或是否能向表达所述谱系标志物的细胞类型分化。
重要的是,在本文所公开的分化倾向分析和方法中,在将多能干细胞进行培养并让其自发分化预定的时间段后,对谱系特异性基因集(例如,谱系标志物基因)或发育特异性基因集的基因表达水平进行测定,其中,从谱系标志物基因集的基因表达分析中产生的结果使得能够预测出所述多能干细胞系的谱系分化偏倚。在分化倾向分析的一些实施方式中,在将沿特定谱系定向分化后,对多能干细胞系进行谱系标志物基因集的基因表达分析。
在基因表达目标基因为发育基因或谱系标志物基因的情况下,相比该发育基因或谱系标志物基因的基因表达水平的正常变异,表达水平高和/或DNA甲基化水平统计学显著高表明所述发育基因或谱系标志物的表达增加,并表明所述多能干细胞具有沿所述发育基因的发育途径分化或分化成表达所述谱系标志物的细胞类型的易感性。类似地,在多能干细胞中的发育基因或谱系标志物基因的基因表达水平处于该基因的基因表达水平的正常变异范围内的情况下,可将该信息用于预测所述多能干细胞将能够沿所述发育基因的发育途径进行分化或者向表达所述谱系标志物的细胞类型进行分化。因此,发育基因和/或谱系标志物的基因表达水平可用于对多能干细胞是否能沿特定发育途径进行分化或是否能分化成表达所述谱系标志物的细胞类型进行预测。
虽然如上所述的基因表达测量主要专注于单个基因的效果,在一些实施方式中,例如为预测细胞系的质量(例如,发展成癌细胞系的可能)和效用(例如,沿或不沿所感兴趣的特定谱系分化的可能),记分卡测量了基因表达目标基因的组合(例如,表12A和/或表12C中列出的基因的任意组合)的基因表达,例如,“癌基因”集中的多个基因、或“谱系标志物基因”集中的多个基因。因此,可选择特定的基因表达目标基因集来开发用于对多能干细胞系进行灵敏准确表征的“定制记分卡”,从而对期望或不期望的特定特征进行鉴定。这是使用如本文所公开的记分卡对特定多能干细胞系的质量和效用进行测定的关键优势之一。
如本文中所论述的,在一些实施方式中,具有如下特征的多能干细胞系中的基因将被认为是基因表达离群基因:在所述多能干细胞中,目标基因的基因表达水平相比多能干细胞中该基因的基因表达的正常变异(例如,正常参比值),基因表达水平的绝对差异具有>1log-2倍的变化和/或目标基因的基因表达水平是统计显著性的(FDR<10%)。具有如下特征的多能干细胞将被认为是离群多能干细胞:相比参比多能干细胞,具有多种(例如,总计至少约5种、或至少约6种、或至少约7种、或至少约8种、或至少约5-10种、或至少约10-15种、或至少约10-50种、或至少约50-100种、或更多种)离群基因表达基因的多能干细胞。因此,可将此类多能干细胞用于逆向选择(例如,分离并舍弃)具有不需要特征的细胞。
基因表达分析
在一些实施方式中,在任何基因水平上测定基因表达,例如,非编码基因以及非编码转录本(例如,天然反义转录本(NAT)、microRNA(miRNA)基因)以及在多能细胞与分化细胞中正常或异常地存在的所有其它类型的核酸和/或RNA转录本的表达。
在一些实施方式中,当所测量的基因表达水平为测量的基因转录本表达水平时,可在信使RNA(mRNA)水平上对蛋白表达的基因转录本表达进行测量。在一些实施方式中,检测使用核酸或核酸类似物,例如但不限于,核酸类似物包括DNA、RNA、PNA、伪互补DNA(pcDNA)、锁核酸以及它们的变体和同系物(homologues)。在一些实施方式中,可用本领域技术人员通常已知的方法,通过反转录聚合酶链式反应(RT-PCR)或定量RT-PCR对基因转录本的表达进行评估。
可使用本领域中所知的任何操作将核酸和核糖核酸(RNA)分子从特定生物样品中分离出,所选择的特定分离操作适用于特定的生物样品。例如,冻融操作和碱性裂解操作可用于从固体材料中获得核酸分子;加热操作和碱性裂解操作可用于从尿中获得核酸分子;以及蛋白酶K提取可用于从血液中获得核酸(Roiff,A等,PCR:Clinical Diagnostics andResearch,Springer(1994))。
一般而言,PCR操作描述了由如下步骤组成的基因扩增方法:(i)引物与核酸样品或文库内的特定基因的序列特异性杂交;(ii)随后扩增,所述扩增涉及使用DNA聚合酶的多轮退火、延伸以及变性;以及(iii)筛选条带大小正确的PCR产物。为使聚合作用起始,所用的引物为具有足够长度和合适序列的寡核苷酸,即,将各引物特异性设计成与待扩增基因组位点的各链互补。
在可选实施方式中,可通过反转录(RT)PCR以及定量RT-PCR(QRT-PCR)或实时PCR的方法测定基因表达目标基因。RT-PCR和QRT-PCR方法已为本领域所熟知,下面对其进行更详细的描述。
实时PCR为可用于测定mRNA表达水平的扩增技术(参见,例如Gibson等,GenomeResearch 6:995-1001,1996;Heid等,Genome Research6:986-994,1996)。实时PCR在扩增期间对PCR产物累积的水平进行评价。这一技术允许对多个样品的mRNA水平进行定量评价。对于mRNA水平,从生物样品(例如,肿瘤以及正常组织)中提取mRNA,然后使用标准技术制备cDNA。例如可使用Perkin Elmer/Applied Biosystems(Foster City,Calif.)7700Prism仪器进行实时PCR。使用例如由Perkin Elmer/Applied Biosystems(Foster City,Calif.)提供的引物表达程序来为感兴趣的基因设计配对引物和荧光探针。引物和探针的最佳浓度可由本领域技术人员初步测定,对照(例如,β-肌动蛋白)引物和探针可从例如Perkin Elmer/Applied Biosystems(Foster City,Calif.)商购获得。使用对照生成标准曲线来对样品中感兴趣的特定核酸进行定量。标准曲线可使用实时PCR中测定的Ct值来生成,所述Ct值与用于分析的感兴趣的核酸的初始浓度有关。感兴趣基因的10-106拷贝的标准稀释液通常就足够了。另外,生成对照序列的标准曲线。这允许以对照的量来标准化组织样品中感兴趣核酸的初始含量,以用于比较目的。
使用TaqMan探针的实时定量PCR方法已为本领域所熟知。用于RNA的实时定量PCR的详细方案在Gibson等,1996,A novel method for real time quantitative RT-PCR,Genome Res.,10:995-1001中提供;用于DNA的实时定量PCR的详细方案在Heid等,1996,Real time quantitative PCR.Genome Res.,10:986-994中提供。
基于TaqMan的分析使用荧光寡核苷酸探针,所述探针包含5’荧光染料和3’淬灭剂。所述探针杂交至PCR产物,但其本身由于3’端的封闭剂而不能被延伸。当PCR产物在随后的循环中被扩增时,聚合酶(例如,)的5’核酸酶活性使得所述TaqMan探针断裂。这一断裂将5’荧光染料与3’淬灭剂分离,因此使得荧光作为扩增的函数而增强(参见,例如,全球网网站:“perkin-elmer-dot-com”)。
在另一实施方式中,RNA转录本的检测可通过Northern印迹来完成,其中,将RNA制品在变性琼脂糖凝胶上进行电泳,并转移至适合的支持物(如活化的纤维素膜、硝酸纤维素膜、或玻璃膜、或尼龙膜)。然后将被标记(例如,放射性同位素标记的)cDNA或RNA杂交至该制品上,漂洗并由如放射自显影之类的方法进行分析。
可进一步使用已知的扩增方法来完成RNA转录本的检测。例如,如下方法均在本发明的保护范围内:将mRNA反转录成cDNA、然后进行聚合酶链式反应(RT-PCR);或如美国专利号5,322,770中所述的,使用单个酶进行上述两步骤;或者将mRNA反转录成cDNA、然后进行对称缺口连接酶链反应(symmetric gap lipase chain reaction(RT-AGLCR))(如R.L.Marshall等,PCR Methods and Applications 4:80-84(1994)所述)。在如下参考文献中描述了一种适合于对酶mRNA转录本进行检测的方法:Pabic等,Hepatology,37(5):1056-1066,2003,通过引用将其整体并入本文。
可在本文中使用的其它已知扩增方法包括但不限于:所谓的“NASBA”或“3SR”技术(在PNAS USA 87:1874-1878(1990)以及Nature 350(No.6313):91-92(1991)中有所描述)、Q-β扩增(如公开的欧洲专利申请(EPA)号4544610所述)、链替代扩增(stranddisplacement amplification)(如G.T.Walker等,Clin.Chem.,42:9-13(1996)和欧洲专利申请号684315所述)、以及靶介导的扩增(target mediated amplification)(如PCT公开WO9322461所述)。
还可使用原位杂交显示法,其中,将放射标记的反义RNA探针与活检样品的薄切片杂交,漂洗,用RNase切割然后暴露于感光乳剂(sensitive emulsion)中以进行放射自显影。可将所述样品用苏木精染色来显示样品的组织学组成,并使用合适滤光器的暗视场图像显示显影的乳剂。也可使用非放射性标记,如地高辛(digoxigenin)。
或者,可在DNA阵列、芯片或微阵列上检测mRNA表达。在此类实施方式中,可将探针附着至表面以作“基因芯片”之用。可通过许多已为本领域技术人员所知的技术将此类基因芯片用于检测遗传变异。在一种技术中,将寡核苷酸排列在基因芯片上,以用于通过杂交方法测序对DNA序列进行测定,正如美国专利号6,025,136和6,018,041中所述的技术。本发明的探针还可用于基因序列的荧光检测。此类技术已在例如美国专利号5,968,740和5,858,659中有所描述。如Kayyem等的美国专利号5,952,172和Kelley,S.O.等,(1999),NucleicAcids Res.27:4830-4837所述,还可将探针附着至电极表面,以用于核酸序列的电化学检测。
可将与基因表达目标基因对应的寡核苷酸固定在芯片上,然后将所述芯片与从患者中获得的测试样品的经标记的核酸进行杂交。由含有基因表达目标基因mRNA转录本的样品得到阳性杂交信号。制备DNA阵列的方法及其用途已为本领域所熟知(参见,例如,美国专利号:6,618,6796、6,379,897、6,664,377、6,451,536、548,257、U.S.20030157485;以及Schena等,1995Science 20:467-470;Gerhold等,1999Trends in Biochem.Sci.24,168-173;以及Lennon等,2000Drug discovery Today,5:59-65,以引用的方式将其全部引入本文)。还可进行基因表达系列分析(SAGE)(参见例如,美国专利申请20030215858)。
微阵列
微阵列为分立(discrete)区域的阵列(一般为核酸),所述区域彼此分离,并一般以100/cm.sup.2-1000/cm.sup.2的密度排列,但也能以更高的密度(如10000/cm.sup.2)来排列。微阵列实验的原理为:将来自于给定细胞系或组织的mRNA用来生成称为“靶(target)”的标记样品(一般为标记cDNA),所述标记样品并行地(in parallel)与以有序排列的形式固定于固体表面上的大量核酸序列(一般为DNA序列)进行杂交。
可同时对数以万计的转录本种类进行检测和定量。虽然已开发出了许多不同的微阵列系统,目前最常用的系统可根据所排列的材料分为2组:互补DNA(cDNA)微阵列和寡核苷酸微阵列。所排列的材料通常被称为探针,因为它等同于northern印迹分析中所用的探针。cDNA阵列的探针通常为使用载体特异性或基因特异性引物从cDNA文库或克隆集合中所产生的聚合酶链式反应(PCR)的产物,并将其印在玻璃片或尼龙膜的规定位置处作为斑点(spots)。斑点的大小一般为10-300μm,并相距大约相等的距离。使用这一技术,可将由超过30,000种cDNA组成的阵列安装到常规显微镜用载玻片的表面上。对于寡核苷酸阵列,通过如下方式原位合成短的20-25mers:通过光刻法(photolithography)合成至硅片上(来自Affymetrix的高密度寡核苷酸阵列);或由喷墨(ink-jet)技术而得(由RosettaInpharmatics开发,并授权给Agilent Technologies)。
或者,可将预合成的寡核苷酸印至玻璃片上。基于合成的寡核苷酸的方法提供了如下优势:因为仅序列信息就足够生成用以排列的DNA,因此不需要耗时处理cDNA资源。同时,可将探针设计用来代表给定转录本最独特的部分,使得能对密切相关的基因或剪接变体进行检测。尽管短的寡核苷酸可能导致特异性较低的杂交及降低的灵敏度,最近已开发出预合成的较长的寡核苷酸(50-100mers)的排列来克服这些缺点。
因此,在运行微阵列来确定多能干细胞中目标基因表达基因的基因表达水平时,可进行下列步骤:从包含多能干细胞的样品中获得mRNA并制备成核酸靶标;在一般如微阵列的制造者所建议的条件(合适的严格杂交条件,如50℃下,3xSSC、0.1%SDS)下接触所述阵列以结合阵列上的相应探针;漂洗(如果需要的话)以除去未结合的核酸靶标;然后对结果进行分析。
应当认识到,可通过本领域已知的方法(如,引物特异性cDNA合成)富集感兴趣序列(例如,存在于如本文所述的基因谱中的序列)的mRNA。例如可通过使用PCR技术将该群进一步扩增。将靶或探针进行标记以允许对靶分子与所述微阵列的杂交进行检测。适合的标记包括同位素标记或荧光标记(可掺入所述探针中)。
可根据标准Affymetrix方案,对Affymetrix HG-U133.Plus 2.0基因芯片进行使用和杂交、漂洗以及扫描。可对阵列上的一些RNA进行复制,使得可得到的杂交总数为96,以用于随后的分析。
为监测mRNA水平,例如,从含有待测多能干细胞的样品中将mRNA提取出来、反转录、并生成荧光标记的cDNA探针。然后将能杂交至基因表达目标cDNA的微阵列用标记cDNA探针进行探测、扫描所述玻片、并测量荧光强度。这一强度与杂交强度和表达水平有关。
“定量”扩增的方法已为本领域技术人员所熟知。例如,定量PCR包括使用相同引物同时共扩增已知量的对照序列。这提供了可用于校准(calibrate)PCR反应的内标(internal standard)。定量PCR的详细方案已在如下文献中提供:例如,Innis等,(1990)PCR Protocols,AGuide to Methods and Applications,Academic Press,Inc.N.Y.。
虽然可使用由Affymetrix描述的与本发明相关的相同操作和硬件,其它选择也是可用的。许多综述已写出用于制造微阵列和用于进行分析的详细方法(参见,例如,Bowtell,Nature Genetics Suppl,27:25-32(1999);Constantine等,Life ScL News 7:11-13(1998);Ramsay,Nature Biotechnol,16:40-44(1998))。另外,描述用于生产微阵列板、玻片及相关仪器的技术的专利(U.S.6,902,702、U.S.6,594,432、U.S.5,622,826,通过引用将其全部并入本文);以及描述用于进行分析的技术的专利(U.S.6,902,900;U.S.6,759,197,通过引用将其全部并入本文)已得以授权。用于制造板或玻片的2种主要技术包括光刻法(参见U.S.5,445,934、U.S.5,744,305,通过引用将其全部并入本文)或机器人点样法(robotic spotting methods)(U.S.5,807,522,通过引用将其整体并入本文)。其它操作可包括喷墨印刷(inkjet printing)或毛细管点样(参见,例如,WO 98/29736或WO00/01859,通过引用将其整体并入本文)。
用于微阵列板或玻片的基板可为任何能结合并固定寡核苷酸的材料,包括塑料、金属(如铂)以及玻璃。优选的基板为涂有促进寡核苷酸结合的材料(如聚赖氨酸)的玻璃(参见,Chena等,Science 270:467-470(1995))。许多用于共价连接寡核苷酸的方案已被描述,并适于为本发明所用(参见,例如,U.S.6,594,432,通过引用将其整体并入本文)。固定的寡核苷酸的长度应该至少为20个碱基,并应具有与用于杂交的基因靶标中的区段严格对应的序列。
分化倾向分析
如本文所公开的,本文所公开的生成记分卡的方法、系统以及分析可任选包含分化倾向分析。在一些实施方式中,例如,可在分化倾向分析后进行DNA甲基化分析和基因表达分析。在一些实施方式中,如果对测定多能干细胞系的质量(例如,安全性)感兴趣,其中,使用者已知所述多能干细胞系沿期望细胞谱系进行分化,可忽略分化倾向分析。
一般而言,分化倾向分析允许多能干细胞系在预定的时间段中沿不同谱系自发分化,然后从分化的细胞中收集核酸材料,并将所述核酸材料用作本文所论述的DNA甲基化分析和/或基因表达分析的起始材料。在可选实施方式中,分化倾向分析还包含使多能干细胞系沿特定谱系(例如,神经元谱系、胰腺谱系、心脏谱系等)定向分化预定的时间段,此后从分化的细胞中收集核酸材料,并将所述核酸材料用作DNA甲基化分析和/或基因表达分析的起始材料。在一些实施方式中,分化倾向分析包含在对所述的分化细胞进行本文所公开的DNA甲基化分析和/或基因表达分析之前,将多能干细胞系自发分化或定向分化至少0天、或约1天、或约2天、或约3天、或约4天、或约5天、或约6天、或约7天、或约8天、或约8-10天、或约10-12天、或约12-14天、或约14-16天、或约16-20天、或多于20天。
在所述分化倾向分析中,所述DNA甲基化分析和/或基因表达分析按如下方式进行:分别测量如本文所公开的各种谱系标志物基因和/或发育基因的DNA甲基化和基因表达。在一些实施方式中,对表7中列出的多个谱系标志物基因和/或发育基因的DNA甲基化和/或基因表达进行测量。
如本文中所论述的,在一些实施方式中,具有如下特征的多能干细胞系中的基因将被认为是分化离群基因:在所述多能干细胞中,谱系基因的基因表达水平相比多能干细胞中该谱系基因的基因表达的正常变异(例如,正常参比值),谱系基因表达的绝对差异具有>1log-2倍的变化和/或谱系基因的基因表达水平是统计显著性的(FDR<5%)。具有如下特征的多能干细胞将被认为是离群多能干细胞:相比参比多能干细胞,具有多种(例如,总计至少约5种、或至少约6种、或至少约7种、或至少约8种、或至少约5-10种、或至少约10-15种、或至少约10-50种、或至少约50-100种、或更多种以上)离群谱系基因表达基因的多能干细胞,所述离群多能干细胞可能不沿与参比多能干细胞系相同的谱系进行分化。因此,可将此类多能干细胞用于逆向选择(例如,分离并舍弃)具有不需要特征的细胞(例如,不沿特定谱系分化的细胞)。
在一些实施方式中,例如可每日对多能干细胞(所述多能干细胞正在进行自发分化培养以供本发明的方法使用)的形态进行检测并进行介质交换。任选地,可基于常规方法对干细胞标志物进行另外的分析和验证,包括每5代的碱性磷酸酶;每10-15代的OCT4、NANOG、TRA-160、TRA-181、SEAA-4、CD30以及G带核型分析(Karyotype by G-banding),所述分析和验证将鉴定出所述多能干细胞是否已分化而远离多能干细胞。
在另外的方面,将多能干细胞在一定条件及不同分化方案下进行培养,并对它们使多能干细胞具备获得异常表观遗传改变的易感性的倾向进行分析。例如,将通过维持在次优培养条件下(例如,在不更换滋养层的情况下高密度培养4-7周)的不定向分化作为具有此类倾向的示例性条件进行分析。对于这种或其它培养条件和/或方案,例如定期从平行分化的培养物中取DNA样品以研究不正常表观遗传改变的进展。同样地,可对定向分化方案(如分化成神经谱系32'33,)就其使ES细胞具有获得如下特征的易感性的倾向进行分析:异常表观遗传改变、胰腺谱系(Segev等,J.Stem Cells 22:265-274,2004;以及Xu,X.等,Cloning Stem Cells 8:96-107,2006,通过引用并入本文)和/或心肌细胞(Yoon,B.S.等,Differentiation 74:149-159,2006;以及Beqqali等,Stem Cells,24:1956-1967,2006,通过引用并入本文)。
在一些实施方式中,使多能干细胞系沿一种或多种不同谱系定向分化。在一些实施方式中,所述多能干细胞系的分化可通过如本文所公开的DNA甲基化和/或基因表达分析进行评估。在可选实施方式中,可通过本领域技术人员通常已知的免疫染色和免疫测定(immunoassays)来对多能干细胞系的分化进行评估。示例性的免疫测定包括酶联免疫吸附分析(ELISA)、放射免疫测定(RIA)、免疫放射测定分析(IRMA)、Western印迹、免疫细胞化学法或免疫组织化学法,将在下文中对各免疫测定进行详细描述。通常更优选,可以非常快速的免疫测定(如ELISA或RIA)。还可使用抗体阵列或蛋白芯片,参见,例如,美国专利申请号:20030013208A1、20020155493A1、20030017515,以及美国专利号:6,329,209、6,365,418,通过引用将它们整体并入本文。
免疫测定:最常见的酶免疫测定为“酶联免疫吸附分析(ELISA)”。ELISA为使用抗体的标记(例如,酶联)形式对抗原的浓度进行检测和测量的技术。存在不同形式的ELISA,这是本领域技术人员众所周知的。本领域已知的ELISA标准技术描述于“Methods inImmunodiagnosis”,第二版,Rose和Bigazzi著,John Wiley&Sons,1980;Campbell等,“Methods and Immunology”,W.A.Benjamin,Inc.,1964;以及Oellerich,M.,1984,J.Clin.Chem.Clin.Biochem.,22:895-904中。在“夹心ELISA(Sandwich ELISA)”中,将抗体(例如,抗酶的抗体)连接至固相(即,微量滴定板),并接触含有抗原(例如,酶)的生物样品。然后漂洗所述固相以除去未结合的抗原。随后将标记(例如,酶联)的抗体结合至结合的抗原(如果存在的话),形成抗体-抗原-抗体夹心。可与抗体连接的酶的实例为碱性磷酸酶、辣根过氧化物酶、荧光素酶、脲酶(urease)、以及β-半乳糖苷酶。酶联抗体与底物反应形成可测量的有色反应产物。
在“竞争ELISA”中,将抗体与含有抗原(即,酶)的样品一起孵育。然后将该抗原-抗体混合物与包覆有抗原(即,酶)的固相(例如,微量滴定板)接触。存在于样品中的抗原越多,可用于与固相结合的游离抗体将越少。然后将标记(例如,酶联)的第二抗体加至所述固相,从而测定出与固相结合的第一抗体的量。
在“免疫组织化学分析”中,通过将组织切片与抗体(对经分析的蛋白具有特异性)接触来对所述组织进行特定蛋白的检测。然后通过任何方法使所述抗体可视化,从而测定出所述蛋白是否存在以及存在的量。用于使抗体可视化的方法的实例为,例如,利用与抗体相连的酶(例如,荧光素酶、碱性磷酸酶、辣根过氧化物酶、或β-半乳糖苷酶)的方法;或化学方法(例如,DAB/底物发色团(Substrate chromagen))。然后将样品通过显微镜进行分析,最优选通过如下方式进行分析:利用光学显微镜,对用于在可见光谱中检测的染色剂进行染色的样品进行分析,所述染色使用本领域技术人员已知的任何此类染色方法和试剂。
或者,可使用“放射免疫测定”。放射免疫测定为使用抗原的标记(例如,放射性标记或荧光标记)形式对抗原的浓度进行检测和测量的技术。用于抗原的放射性标记的实例包括3H、14C和125I。通过使生物样品中的抗原与标记(例如,放射性标记)的抗原竞争结合抗所述抗原的抗体来测量生物样品中抗原酶的浓度。为了保证标记抗原和未标记抗原间的竞争性结合,所述标记抗原以足够饱和抗体结合位点的浓度存在。样品中抗原浓度越高,结合到抗体上的标记抗原浓度越低。
在放射免疫测定中,为测定结合到抗体上的标记抗原浓度,必须将抗原-抗体复合物与游离抗原分离。将抗原-抗体复合物与游离抗原分离的一种方法是通过用抗同种型的抗血清将抗原-抗体复合物沉淀。将抗原-抗体复合物与游离抗原分离的另一种方法是通过用福尔马林杀死的金黄色葡萄球菌(S.aureus)将抗原-抗体复合物沉淀。将抗原-抗体复合物与游离抗原分离的再一种方法是通过“固相放射免疫测定”进行,其中,将抗体连接(例如,共价连接)至琼脂糖珠(Sepharose beads)、聚苯乙烯孔、聚氯乙烯孔、或微量滴定孔。通过将抗体结合的标记抗原浓度与基于已知抗原浓度的样品而得的标准曲线进行比较,可测定生物样品中抗原的浓度。
“免疫放射测定分析”(IRMA)为免疫分析,其中,抗体试剂为放射性标记的。IRMA需要通过如与蛋白(例如,兔血清白蛋白(RSA))缀合之类的技术生产多价抗原缀合物。多价抗原缀合物每分子必须具有至少2个抗原残基,并且所述抗原残基必须间隔足够远以使其可以与至少2个抗所述抗原的抗体结合。例如,在IRMA中,可将多价抗原缀合物附着于固体表面(如塑料球)。将未标记的“样品”抗原和放射性标记的针对抗原的抗体加入试管(含有包覆有多价抗原缀合物的球)中。样品中的抗原与多价抗原缀合物竞争抗原-抗体结合位点。孵育适当的时间后,通过漂洗将未结合反应物除去,然后对固相上放射性物质的量进行测定。所结合的放射性抗体的量与样品中的抗原浓度成反比。
也可根据实践者的偏好,采用其它技术来检测由分化的多能干细胞群表达的谱系标志物的水平。此类技术中的一种为Western印迹(Towbin等,Proc.Nat.Acad.Sci.,76:4350(1979)),其中,在转至固体支持物(如,硝酸纤维素滤膜)之前,将适当处理的样品在SDS-PAGE凝胶上进行电泳。然后可将以可检测方式标记的抗体或蛋白结合分子用于对表达的谱系标志物水平进行评价,其中,可检测标记的信号强度对应于所谱系标志物的量。例如通过密度法(densitometry),还可对存在的谱系标志物表达量的水平进行定量。
在一个实施方式中,可通过如下技术对生物样品中的谱系标志物表达水平进行测定:质谱,如MALDI/TOF(飞行时间(time-of-flight)),SELDI/TOF;液相色谱-质谱联用(LC-MS);气相色谱-质谱联用(GC-MS);高效液相色谱-质谱联用(HPLC-MS);毛细管电泳-质谱联用;核磁共振光谱;或串联质谱(例如,MS/MS、MS/MS/MS、ESI-MS/MS等)。例如,参见美国专利申请号:20030199001、20030134304、20030077616,通过引用将其并入本文。在特定实施方式中,可将这些方法学与机器、计算机系统和媒介结合,以产生自动化系统,从而用于对多能干细胞群中表达的谱系标志物的表达水平进行测定、并对其进行分析以生成可打印的报告(例如,鉴定生物样品中蛋白表达水平的报告)。
用于生成记分卡的多能干细胞或通过与记分卡比较来测定功能的多能干细胞。
如本文所公开的方法、试剂盒、系统和记分卡可用于验证和监测来自任何物种(例如哺乳动物物种,如人类)的任何多能干细胞。
通常,供所述方法、分析、系统、试剂盒和生成记分卡使用的多能干细胞可获得自或衍生自任何可得到的来源。因此,多能细胞可获得自或衍生自脊椎动物或无脊椎动物。在一些实施方式中,所述多能干细胞为哺乳动物多能干细胞。在如本文所公开的所有方面中,供如本文所公开的方法、分析以及生成记分卡或与已存在的记分卡进行比较所用的多能干细胞可为任何多能干细胞。例如,多能干细胞可获得自或衍生自脊椎动物或无脊椎动物。在本发明的方面的一些实施方式中,所述多能干细胞为哺乳动物多能干细胞。
在本发明的方面的一些实施方式中,所述多能干细胞为灵长类动物或啮齿类动物多能干细胞。在本发明的方面的一些实施方式中,所述多能干细胞选自于由以下多能干细胞所组成的组:黑猩猩、食蟹猴(cynomologous monkey)、蜘蛛猴(spider monkey)、猕猴(macaques)(例如,恒河猴(Rhesus monkey))、小鼠、大鼠、旱獭(woodchuck)、雪貂(ferret)、兔(rabbit)、仓鼠(hamster)、牛(cow)、马、猪、鹿、野牛(bison)、水牛(buffalo)、猫科物种(feline)(例如,家猫(domestic cat))、犬科物种(canine)(例如,狗、狐狸和狼)、鸟类物种(avian)(例如,鸡、鸸鹋(emu)和鸵鸟)、以及鱼类(例如,鳟鱼(trout)、鲶鱼(catfish)和鲑鱼(salmon))的多能干细胞。
在本发明的方面的一些实施方式中,所述多能干细胞为人多能干细胞。在一些实施方式中,所述多能干细胞为本领域技术人员已知的人干细胞系。在一些实施方式中,所述多能干细胞为诱导多能干(iPS)细胞、或稳定重编程细胞,其为中间多能干细胞(intermediate pluripotent stem cell)、能进一步重编程成iPS细胞,例如,部分诱导多能干细胞(还称为“piPS细胞”)。在一些实施方式中,所述多能干细胞、iPSC或piPSC为基因修饰的多能干细胞。
在一些实施方式中,用于本发明的多能干细胞的多能状态可通过多种方法进行确证。例如,可测试所述细胞是否存在有特征ES细胞标志物。在人ES细胞的情况下,此类标志物的实例在先已得以鉴定,其包括SSEA-4、SSEA-3、TRA-1-60、TRA-1-81以及OCT 4,并均为本领域所知。
同时,可通过将所述细胞注射入适合的动物(例如,SCID小鼠)、并对产生的分化细胞和组织进行观察,来对多能性进行确证。确证多能性的另一种方法是使用受试者的多能干细胞来生成嵌合体动物,然后观察引入的细胞对不同细胞类型的贡献。生产嵌合体动物的方法为本领域所熟知,并描述于美国专利号6,642,433(通过引用并入本文)中。
确证多能性的再一种方法为观察ES细胞在有助于分化的条件下(例如,除去成纤维细胞滋养层)培养时向拟胚体及其它分化细胞类型的分化。已使用这一方法,并且已证实本主题的多能细胞在组织培养中生成了拟胚体和不同的分化细胞类型。
由完全雌性起源的DNA衍生而得到的多能细胞和细胞系(优选人多能细胞和细胞系)有许多治疗和诊断应用。在许多疾病状况的治疗中,此类多能细胞可用于细胞移植治疗或基因治疗(如果进行了基因修饰)。
关于这一点,已知相比其它细胞类型,某些小鼠胚胎干(ES)细胞具有更高效地分化成某些细胞类型的倾向。类似地,人多能(ES)细胞具有类似的选择性分化能力。因此,本发明可用于为期望的多能干细胞用途来鉴定和选择具有期望特征和分化倾向的多能干细胞。例如,在根据本发明的方法筛选多能细胞系的情况下,可由于该多能干细胞沿特定细胞系分化的效率高(以及其它期望特征,如致癌基因表观遗传沉默、肿瘤抑制基因和/或特定发育基因的甲基化低)而选定所述多能干细胞,并可根据已知方法将所述多能干细胞进行诱导分化,从而获得期望细胞类型。例如,根据本领域技术人员已知的方法,通过在分化培养基中和供细胞分化的条件下培养人多能干细胞(例如,ES细胞或iPS细胞),可将此类细胞诱导分化成造血干细胞、肌细胞、心肌细胞、肝细胞、胰岛细胞、视网膜细胞、软骨细胞、上皮细胞、尿路细胞等。引起ES细胞分化的培养基和方法作为适当培养条件为本领域所熟知。
在一些实施方式中,多能干细胞为诱导多能干细胞(例如,iPS细胞)或稳定的部分重编程细胞(例如,piPSC)。在一些实施方式中,如本文所公开的稳定重编程细胞可由不完全重编程体细胞产生。在一些实施方式中,所述体细胞为人细胞,并可为例如从如下受试者中获得的病变体细胞:具有病状(pathology)的受试者、或者具有患上疾病或状况的遗传易感性或有患上疾病或状况风险的受试者。
例如,可使用如下国际专利申请中所公开的任何方法来将体细胞重编程为iPS细胞或piPS细胞:WO2007/069666、WO2008/118820、WO2008/124133、WO2008/151058、WO2009/006997;以及美国专利申请:US2010/0062533、US2009/0227032、US2009/0068742、US2009/0047263、US2010/0015705、US2009/0081784、US2008/0233610、US7615374;美国专利申请号:12/595,041、EP2145000、CA2683056、AU8236629、12/602,184、EP2164951、CA2688539、US2010/0105100、US2009/0324559、US2009/0304646、US2009/0299763、US2009/0191159,通过引用将它们的内容整体并入本文。在一些实施方式中,可通过本领域已知的用于对细胞进行重编程的任何方法来生产供如本文所公开的方法、分析以及生成记分卡或与存在的记分卡进行比较所用的iPS细胞,例如,如EP1970446、US2009/0047263、US2009/0068742、以及2009/0227032(通过引用将它们整体并入本文)中所公开的病毒诱导的重编程细胞生成或化学诱导的重编程细胞生成。
在一些实施方式中,可通过化学重编程(如,通过WO2010/033906中所公开的方法,通过引用将其整体并入本文)由体细胞的不完全重编程产生供如本文所公开的方法、分析以及生成记分卡或与存在的记分卡进行比较所用的iPS细胞。在可选实施方式中,可通过非病毒手段(如通过WO2010/048567中所公开的方法,通过引用将其内容整体并入本文)由体细胞的不完全重编程来产生本文所公开的稳定重编程细胞。
供如本文所公开的方法、分析以及生成记分卡或与存在的记分卡进行比较所用的其它多能干细胞可为本领域技术人员已知的任何多能干细胞。示例性的干细胞包括胚胎干细胞、成体干细胞、多能干细胞、神经干细胞、肝干细胞、肌肉干细胞、肌肉前体干细胞(muscle precursor stem cells)、内皮祖细胞(endothelial progenitor cells)、骨髓干细胞、软骨形成(chondrogenic)干细胞、淋巴干细胞、间充质(mesenchymal)干细胞、造血干细胞、中枢神经系统干细胞、外周神经系统干细胞等。还可在如下以及其它地方发现对干细胞的描述(包括分离和培养它们的方法):Embryonic Stem Cells,Methods andProtocols,Turksen著,Humana Press,2002;Weisman等,Annu.Rev.Cell.Dev.Biol.,17:387 403;Pittinger等,Science,284:143 47,1999;Animal Cell Culture,Masters著,Oxford University Press,2000;Jackson著,PNAS 96(25):14482 86,1999;Zuk等,TissueEngineering,7:211 228,2001(“Zuk等”);Atala等,particularly Chapters 33 41;以及美国专利号5,559,022、5,672,346以及5,827,735。还可在如下以及其它地方发现对基质细胞(stromal cells)的描述(包括分离和培养它们的方法):Prockop,Science,276:71 74,1997;Theise等,Hepatology,31:235 40,2000;Current Protocols in Cell Biology,Bonifacino等著,John Wiley&Sons,2000(包括直至2002年3月的更新);以及美国专利号4,963,489。本领域技术人员将理解的是,选择用于包含于移植物(具有混合的SVF细胞或SVF-矩阵构建体(SVF-matrix construct))(例如,根据如本文所公开的构建体和方法,用于包封组织或细胞移植物)中的干细胞和/或基质细胞通常适合于所述构建体的预期用途。
供如本文所公开的方法、分析以及生成记分卡或与存在的记分卡进行比较所用的其它多能干细胞可为衍生自任何种类的组织(例如胚胎组织(如胎组织或胎前期组织)或成人组织)的任何细胞,所述干细胞的特征为能在适当的条件下生产出不同细胞类型的后代,所述不同细胞类型的后代为所有3种胚层(内胚层、中胚层和外胚层)的衍生物。可通过确立细胞系(established cell line)的形式提供这些细胞类型,或者可从初级(primary)胚胎组织中直接获得它们并立即用于分化。本发明所包括的细胞有NIH人胚胎干细胞登记处中列出的细胞,例如:hESBGN-01、hESBGN-02、hESBGN-03、hESBGN-04(BresaGen,Inc.);HES-1、HES-2、HES-3、HES-4、HES-5、HES-6(ES Cell International);Miz-hES1(MizMediHospital-Seoul National University);HSF-1、HSF-6(University of California atSan Francisco);以及H1、H7、H9、H13、H14(Wisconsin Alumni Research Foundation(WiCell Research Institute))。在一些实施方式中,在获得供如本文所公开的方法、分析、系统以及生成记分卡或与存在的记分卡进行比较所用的多能干细胞的过程中,胚胎未被毁坏。
在另一实施方式中,所述干细胞(例如,成体干细胞或胚胎干细胞)可从组织(包括固体组织(solid tissue),固体组织例外情况为全血,包括血液、血浆和骨髓)中分离,所述组织之前在文献中未被鉴定为干细胞的来源。在一些实施方式中,所述组织为心脏或心脏组织(heart or cardiac tissue)。在其它实施方式中,所述组织例如为但不限于脐带血、胎盘、骨髓或软骨绒毛。
供如本文所公开的方法、分析以及生成记分卡或与存在的记分卡进行比较所用的感兴趣的干细胞还包含各种类型的胚胎细胞,例如人胚胎干(hES)细胞(由Thomson等,(1998)Science 282:1145所述);来自其它灵长类动物的胚胎干细胞,例如恒河猴干细胞(Thomson等,(1995)Proc.Natl.Acad.Sci USA 92:7844);狨猴(marmoset)干细胞(Thomson等,(1996)Biol.Reprod.55:254);以及人胚胎生殖(hEG)细胞(Shambloft等,Proc.Natl.Acad.Sci.USA 95:13726,1998)。感兴趣的还有谱系定型干细胞(lineagecommitted stem cell),例如中胚层干细胞及其它早期心生细胞(early cardiogeniccells)(参见Reyes等,(2001)Blood98:2615-2625;Eisenberg&Bader(1996)Circ Res.78(2):205-16等)。在一些实施方式中,所述多能干细胞可获得自任何哺乳动物物种,例如,人、马科动物、牛科动物、猪、犬科动物、猫科动物、啮齿动物(例如,小鼠、大鼠、仓鼠)、灵长类动物等。在一些实施方式中,在所述多能干细胞为人多能干细胞的情况下,在获得供如本文所公开的方法、分析、系统以及生成记分卡或与存在的记分卡进行比较所用的多能干细胞的过程中,胚胎并未被毁坏。
仅作为背景,当ES细胞未定型为特定分化谱系时,被认为是未分化的。此类细胞显示出使其区别于胚胎或成体起源的分化细胞的形态特征。未分化的ES细胞容易被本领域技术人员识别出来,并在二维微观角度上一般以具有高核质比和明显的核仁的细胞群落出现。未分化的ES细胞表达可用作标志物来检测未分化细胞存在的基因,并且所述基因的多肽产物可作为逆向选择的标志物。例如,参见美国申请序列号2003/0224411A1;Bhattacharya(2004)Blood 103(8):2956-64;以及Thomson(1998),supra.,各自通过引用被并入本文。人ES细胞系表达细胞表面标志物,所述细胞表面标志物表征未分化的非人灵长类动物ES细胞以及人ES细胞,其包括阶段特异性胚胎抗原(SSEA)-3、SSEA-4、TRA-I-60、TRA-1-81以及碱性磷酸酶。携带有SSE-4表位的球糖系列糖脂(globo-series glycolipid)GL7可通过向携带有SSEA-3表位的球糖系列糖脂Gb5添加唾液酸而形成。因此,GL7与抗SSEA-3和SSEA-4二者的抗体均反应。未分化的人ES细胞系无SSEA-1染色,而分化的细胞则SSEA-I着色明显。在WO 99/20741、WO 01/51616以及WO 03/020920中描述了用于使未分化形式的hES细胞增殖的方法,通过引用将它们整体并入本文。
在一些实施方式中,供如本文所公开的方法、分析、系统以及生成记分卡或与存在的记分卡比较所用的多能干细胞为人脐带血细胞。最近,人脐带血细胞(HUCBC)被认为是造血祖细胞以及间充质祖细胞的丰富来源(Broxmeyer等,1992Proc.Natl.Acad.Sci.USA 89:4109-4113)。以前,脐带血以及胎盘血通常被认为是废弃物,在婴儿出生时被丢弃。脐带血细胞用作可移植的干细胞或祖细胞来源,并用作恶性疾病(即,急性淋巴性白血病、急性骨髓性白血病、慢性骨髓性白血病、骨髓增生异常综合症以及神经母细胞瘤)以及非恶性疾病(如范可尼贫血(Fanconi’s anemia)和再生障碍性贫血(aplastic anemia))治疗中的骨髓重建细胞(marrow repopulating cells)的来源。(Kohli-Kumar等,1993Br.J.Haematol.85:419-422;Wagner等,1992Blood 79,1874-1881;Lu等,1996Crit.Rev.Oncol.Hematol 22:61-78;Lu等,1995Cell Transplantation 4:493-503)。HUCBC的明显优势为这些细胞的不成熟免疫,这与胎儿细胞非常类似,因而显著减少了宿主排斥的风险(Taylor&Bryson,1985J.Immunol.,134:1493-1497)。
人脐带血含有可在组织培养中扩增的间充质祖细胞和造血祖细胞以及内皮细胞前体(Broxmeyer等,1992Proc.Natl.Acad.Sci.USA 89:4109-4113;Kohli-Kumar等,1993,Br.J.Haematol.,85:419-422;Wagner等,1992,Blood,79;1874-1881;Lu等,1996,Crit.Rev.Oncol.Hematol,22:61-78;Lu等,1995,Cell Transplantation,4:493-503;Taylor&Bryson,1985,J.Immunol.,134:1493-1497;Broxmeyer,1995,Transfusion,35:694-702;Chen等,2001,Stroke,32:2682-2688;Nieda等,1997,Br.J.Haematology,98:775-777;Erices等,2000,Br.J.Haematology,109:235-242)。脐带血中造血祖细胞的总含量等于或超过骨髓,另外,HUCBC中高度增殖的造血细胞比骨髓中的高八倍,并表达造血标志物,如CD14、CD34以及CD45(Sanchez-Ramos等,2001,Exp.Neur.,171:109-115;Bicknese等,2002,Cell Transplantation,11:261-264;Lu等,1993,J.Exp Med.,178:2089-2096)。细胞的一个来源为造血微环境,如,循环外周血(优选外周血的单核细胞部分)、脐带血、骨髓、胎儿肝、或哺乳动物的卵黄囊。在一些实施方式中,多能干细胞、特别是神经干细胞还可衍生自中枢神经系统(包括脑膜)。
计算机系统
本发明一个方面涉及用于处理分析数据以及生成一种或多种目标细胞的测量结果或评级(rating)(如多能干细胞的一种或多种质量保证记分卡)的计算机系统。所述计算机系统可以包含(a)至少一个存储器,所述存储器含有适合于控制所述计算机系统的操作来执行方法的至少一个计算机程序,所述程序包括:(i)接收DNA甲基化数据,例如感兴趣的多能干细胞系中DNA甲基化目标基因集的甲基化水平,并进行所述DNA甲基化数据与对照多能干细胞系或多个参比多能干细胞系中的相同目标基因的参比DNA甲基化水平的比较,(ii)接收多能干细胞系的分化潜能数据,并进行所述分化潜能数据与参比分化潜能数据的比较,(iii)基于DNA甲基化数据与参比DNA甲基化数据参数的比较、生成偏离记分卡,并基于所述感兴趣的干细胞系的分化倾向与参比分化数据的比较、生成谱系记分卡;以及(b)至少一个处理器,所述处理器用于执行所述计算机程序。
在一些实施方式中,所述计算机系统可以包含(a)至少一个存储器,所述存储器含有适合于控制所述计算机系统的操作来执行包括如下步骤的方法的至少一个计算机程序:(i)接收DNA甲基化数据(例如感兴趣的多能干细胞系中DNA甲基化目标基因集的甲基化水平),并与对照多能干细胞系或多个参比多能干细胞系中的相同DNA甲基化目标基因的DNA甲基化数据(例如DNA甲基化水平)进行比较,(ii)接收基因表达数据(例如感兴趣的多能干细胞系中谱系标志物基因集的基因表达水平),并与对照多能干细胞系或多个参比多能干细胞系中的相同谱系标志物基因的基因表达数据(例如基因表达水平)进行比较,(iii)基于DNA甲基化数据与参比DNA甲基化参数的比较、生成偏离记分卡,并基于所述感兴趣的多能干细胞中谱系标志物基因的基因表达水平与所述基因谱系标志物的参比基因表达水平的比较、生成谱系记分卡;以及(b)至少一个处理器,所述处理器用于执行所述计算机程序。
在一些实施方式中,所述计算机程序适合于控制所述计算机系统的操作来执行进一步包括如下步骤的方法:(i)接收感兴趣的多能干细胞系中第二目标基因集的基因表达数据(例如,基因表达水平),并进行所述基因表达数据(例如,基因表达水平)与参比基因表达数据(例如,对照多能干细胞系或多种多能干细胞系中相同第二目标基因集的基因表达水平)的比较;(ii)基于所述基因表达数据(例如,基因表达水平)与参比基因表达数据(例如,一种或多种参比多能干细胞系中的参比基因表达水平)的比较,生成偏离记分卡。
本发明的另一方面涉及含有指令(如计算机程序和软件)的计算机可读介质,所述指令用于控制计算机系统对分析数据进行处理并生成多能干细胞系的一种或多种记分卡,所述指令包含:(i)接收感兴趣的多能干细胞系中DNA甲基化目标基因集的DNA甲基化数据(例如,甲基化水平),并与对照多能干细胞系或多个参比多能干细胞系中相同的DNA甲基化目标基因的DNA甲基化数据(例如,DNA甲基化水平)进行比较;(ii)接收感兴趣的多能干细胞系中谱系标志物基因集的基因表达数据(例如,基因表达水平),并与对照多能干细胞系或多个参比多能干细胞系中相同谱系标志物基因的基因表达数据(例如,基因表达水平)进行比较;(iii)基于DNA甲基化数据与参比DNA甲基化参数的比较,生成偏离记分卡,并基于所述感兴趣的多能干细胞中谱系标志物基因的基因表达水平与所述基因的谱系标志物的参比基因表达水平的比较,生成谱系记分卡。在一些实施方式中,所述计算机可读介质进一步包含用于如下操作的指令:(i)接收感兴趣的多能干细胞系中第二目标基因集的基因表达数据(例如,基因表达水平),并进行所述基因表达数据(例如,基因表达水平)与对照多能干细胞系或多种多能干细胞系中相同第二目标基因集的参比基因表达数据(例如,基因表达水平)的比较;(ii)基于所述基因表达数据(例如,基因表达水平)与参比基因表达数据(例如,一种或多种参比多能干细胞系中的参比基因表达水平)的比较,生成偏离记分卡。
所述计算机系统可包含一个或多个通用处理器或专用处理器以及相关存储器,所述存储器包含易失性存储设备和非易失性存储设备。计算机系统的存储器可存储软件或计算机程序,所述软件或计算机程序用于控制计算机的操作,从而制造出本发明的专用系统或实施执行本发明方法的系统。计算机系统可包含基于Intel或AMDx86的单核或多核中央处理器(CPU)、ARM处理器或类似的用于处理数据的计算机处理器。CPU或微处理器可为任何传统通用的单芯片或多芯片微处理器,如Intel Pentium处理器、Intel 8051处理器、RISC或MISS处理器、PowerPC处理器或ALPHA处理器。另外,所述微处理器可为任何传统的或专用的微处理器,如数字信号处理器或图形处理器。所述微处理器一般具有传统的地址线-、传统的数据线、和一个或多个传统的控制线。如下所述,本发明的软件可在专用系统(dedicated system)或具有DOS、CPM、Windows、Unix、Linix或其它操作系统的通用计算机上执行。所述系统可包含用于存储计算机程序、软件以及数据的非易失性存储器(如磁盘存储器和固态存储器),和用于执行程序和软件的易失性存储器(如高速RAM)。
用于本发明各种实施方式的计算机可读物理存储介质可包括任何物理的计算机可读存储介质,例如,固态存储器(如闪存)、磁的和光的计算机可读存储介质与设备、以及其它持久存储技术的存储器。在一些实施方式中,计算机可读介质可为允许计算机程序和数据被计算机访问的任何有形介质。计算机可读介质可包括为任何能储存信息(如计算机可读指令、程序模块、程序、数据、数据结构和数据库信息)的方法或技术中所用的易失性和非易失性的、可拆卸和不可拆卸的有形介质。在本发明的一些实施方式中,计算机可读介质包括但是不局限于,RAM(随机存取存储器(random access memory))、ROM(只读存储器(read only memory))、EPROM(可擦可编程序只读存储器(erasable programmable readonly memory))、EEPROM(电可擦可编程只读存储器(electrically erasableprogrammable read only memory))、闪存或其它存储技术、CD-ROM(只读存储光盘(compact disc read only memory))、DVD(数字多功能光盘(digital versatile disks))或其它光存储介质、磁带盒、磁带、磁盘存储介质或其它磁存储介质、其它类型的易失性和非易失性存储器、以及任何其它有形介质,所述介质可用于储存信息并被计算机读取,包含上述介质的任何适当组合。
本发明可在独立计算机上实现,或者作为网络计算机系统的一部分实现。在独立计算机中,所有软件和数据可保存在本地存储设备上,例如,光盘或闪存设备可用于储存用于实现本发明的计算机软件和数据。在可选实施方式中,所述软件或数据或两者都可通过网络接线接入远程设备。在一个网络计算机系统实施方式中,本发明在公共网络(如因特网)或专用网络上使用客户端-服务器环境(client–server environment)来连接存储于远程和/或中心节点处的数据和资源。在这一实施方式中,服务器(包含网络服务器)可提供对本发明所提供的信息的访问,或开放访问、基于即时付款(pay as you go)访问或订阅的访问。在客户端-服务器环境中,执行客户端软件或程序(如web浏览器)的客户端计算机通过网络连接至服务器。所述客户端软件或web浏览器为本发明的用户提供了用户界面来输入数据及信息和进行对数据及信息的访问。所述客户端软件可在本地计算机的显示器或其它输出设备上浏览,并允许用户能通过使用计算机键盘、鼠标或其它输入设备来输入信息。所述服务器执行一个或多个计算机程序,所述计算机程序能使客户端软件输入数据、根据本发明处理数据并向所述用户输出数据,以及提供对本地计算机和远程计算机资源的访问。例如,所述用户界面可包含图形用户界面,所述图形用户界面含有:存取元件(如,文本框),所述存取元件准许录入来自所述分析的数据(例如,感兴趣的多能干细胞群和/或参比多能干细胞群中目标基因的DNA甲基化数据水平或DNA基因表达水平);以及显示元件,在执行计算机可读介质上编码的指令后,所述显示元件可提供以图形形式读出的与记分卡比较的结果、或传输到处理器或由处理器提供的数据集。
根据本发明所公开的方法,本发明的实施方式还提供了系统(以及用于产生计算机系统的计算机可读介质)来运行对多能干细胞群体的质量保证进行测定的方法。
在本发明的一些实施方式中,所述计算机系统软件可包含一个或多个功能模块,所述功能模块可被定义为记录在计算机可读介质上的计算机可执行指令,并当所述功能模块被执行时会令计算机去运行本发明的方法。为清晰起见,可通过功能将模块分开,然而,应该要了解的是所述模块不需要对应离散的代码块,并且所描述的功能可通过执行在各种介质上储存的和在各种时间执行的各种软件代码部分来实现。此外,应该理解的是所述模块可完成其它功能,因此所述模块并不限于具有任何特定的功能或功能集。在一些实施方式中,用于产生偏离记分卡的功能模块例如但不限于:存储模块、基因映射模块、参比比较模块、归一化模块、相关性过滤模块、基因集模块、以及显示所述偏离记分卡的记分卡显示模块。在一些实施方式中,用于产生谱系记分卡的功能模块例如但不限于:存储设备、分析归一化模块、样品归一化模块、参比比较模块、基因集模块、富集分析模块、以及显示所述谱系记分卡的记分卡显示模块。所述功能模块可使用一个或多个计算机以及通过使用一个或多个计算机网络被执行。
一个或多个计算机可读介质上所包含的信息可包括数据、计算机软件或程序、以及程序指令,所述程序指令被计算机执行的结果是将所述计算机变成了专用机器,并能令所述计算机完成一个或多个本文所述的功能。此类指令最初可以任何编程语言书写,例如Java、J#、Visual Basic、C、C#、C++、Fortran、Pascal、Eiffel、Basic、COBOL汇编语言等、或它们的任何组合。其上包含有此类指令的计算机可读介质可存在于本发明的计算机系统或计算机网络系统中的一个或多个组件上。
在一些实施方式中,计算机可读介质可为可移植的,以使其上存储的指令可被加载到任何计算机资源上,从而实现本文中所论述的本发明的方面。另外,应该理解的是,存储于计算机可读介质上的指令不限于在主机上运行的应用程序的一部分包含的指令。更确切的说,所述指令可具体为任何类型的计算机代码(例如,目标代码、软件或微码),所述计算机代码可用于为计算机编程以实现本发明的方面。计算机可执行的指令可以适合的计算机语言或几个语言的组合进行书写。基本的计算生物学方法已为本领域技术人员所知,并在例如如下文献和著作中进行了描述:Setubal and Meidanis等,Introduction toComputational Biology Methods(PWS Publishing Company,Boston,1997);Salzberg、Searles、Kasif(著),Computational Methods in Molecular Biology,(Elsevier,Amsterdam,1998);Rashidi和Buehler,Bioinformatics Basics:Application inBiological Science and Medicine(CRC出版社,London,2000);以及Ouelette和BzevanisBioinformatics:A Practical Guide for Analysis of Gene and Proteins(Wiley&Sons,Inc.,第二版,2001)。
在一些实施方式中,如本文所公开的系统可接收来自自动化基因表达分析系统(例如,自动化蛋白表达分析)的基因表达水平数据,自动化蛋白表达分析包括但不限于:质谱系统,包括MALDI-TOF、或基质辅助激光解吸电离飞行时间系统(Matrix Assisted LaserDesorption Ionization-Time of Flight systems);SELDI-TOF-MS蛋白芯片阵列剖析系统(SELDI-TOF-MS ProteinChip array profiling systems),例如装有CiphergenProtein Biology System IITM软件的机器;用于对基因表达数据进行分析的系统(例如,参见美国2003/0194711);基于阵列的表达分析系统,例如,Affymetrix(Santa Clara,CA95051)AutoLoader的高通量阵列系统(HT array systems)和盒阵列系统(cartridgearray systems)、Complete 仪器系统、流体工作站450(Fluidics Station450)、分子杂交炉645(Hybridization Oven 645)、QC工具箱软件工具包(QC ToolboxSoftware Kit)、扫描仪3000 7G(Scanner 3000 7G)、扫描仪30007G加定向基因分型系统(Scanner 3000 7G plus Targeted Genotyping System)、扫描仪3000 7G全基因组联合系统(Scanner 3000 7G Whole-Genome Association System)、GeneTitanTM仪器、阵列站(Array Station)、HT阵列;自动化ELISA系统(例如Dynax(Chantilly,VA)的或ENEASYSTEMPlus);密度计(例如X-Rite-508-SpectroHYRYSTM2密度计);自动化荧光原位杂交系统(例如,参见美国专利6,136,540);与2-D成像软件相连的2D凝胶成像系统;酶标仪;荧光激活细胞分选仪(FACS)(例如,Becton Dickinson的流式细胞仪FACSVantage SE);放射性同位素分析仪(例如,闪烁计数器)。
在本发明的一些实施方式中,所述参比数据可通过电子形式或数字形式记录、注释并从数据库中检索,所述数据库包括但不限于:GenBank(NCBI)蛋白以及DNA数据库,如基因组、ESTs、SNPS、Traces、Celara、Ventor Reads、Watson reads、HGTS等;瑞士生物信息学研究所数据库(Swiss Institute of Bioinformatics databases),如,ENZYME、PROSITE、SWISS-2DPAGE、Swiss-Prot以及TrEMBL数据库;Melanie软件包(Melanie softwarepackage)或ExPASy WWW服务器等、SWISS-MODEL、Swiss-Shop及其它基于网络的计算工具;综合微生物资源数据库(Comprehensive Microbial Resource database)(基因组研究所(The institute of Genomic Research))。可将产生的信息存于相关数据库中,所述信息可用于在基因组内或基因组间测定参比数据或基因或蛋白之间的同源性。
在一些实施方式中,可从存储器、存储设备、或数据库中接收多能干细胞中目标基因的基因表达水平。所述存储器、存储设备或数据库可与检索数据的计算机系统直接连接,或通过有线或无线连接技术与计算机系统连接并通过有线或无线连接从远程设备或系统进行读取。此外,所述存储器、存储设备或数据库可位于远程计算机系统,从所述远程计算机系统中检索所述存储器、存储设备或数据库。
与本发明一起使用的适当的连接技术的实例包括:例如,并行接口(例如,PATA)、串行接口(例如,SATA、USB、火线(Firewire))、局域网(LAN)、广域网(WAN)、因特网、内联网、和外联网、以及无线通信技术(例如,蓝牙、Zigbee、WiFi、WiMAX、3G和4G)。
存储设备在本领域中通常还被称为“计算机可读物理存储介质”(用于各种实施方式),并可包括任何物理计算机可读存储介质,例如,磁的和光的计算机可读存储介质等。基于载波及其它信号的存储介质或传输介质不包括于术语存储设备或物理计算机可读存储介质涵盖的范围内,并对本发明没有用。所述存储设备适于或被配置为在其上记录细胞因子水平信息。此类信息可以数字形式提供,所述数字形式可例如经由因特网、在磁盘上、经由USB(通用串行总线)或经由任何其它适当的通信模式来电子传输和读取。
本文中所用的“存储”指在所述存储设备上对信息(例如,资料、程序与指令)进行记录的过程,所述信息可在稍后的时间被读取回。本领域技术人员可容易地采用任何目前已知的用于在已知的介质上记录信息的方法来,对参比记分卡数据(如本文的方法中所公开的多能干细胞的DNA甲基化水平、和/或基因表达水平、和/或分化倾向资料)做出贡献。
多种软件程序和格式可用于在所述存储设备上存储记分卡资料和信息。可使用多种数据处理器构建格式(例如,文本文件或数据库)来获得或创造的介质,所述介质在其上记录了记分卡。
在本发明的一个实施方式中,所述参比记分卡数据可在数据库中以电子形式或数字形式记录并进行注释,所述数据库包括但不限于:本领域通常已知的蛋白表达数据库,例如耶鲁大学蛋白表达数据库(YPED);以及GenBank(NCBI)蛋白和DNA数据库,如基因组、ESTs、SNPS、Traces、Celara、Ventor Reads、Watson reads、HGTS等;瑞士生物信息学研究所数据库,如ENZYME、PROSITE、SWISS-2DPAGE、Swiss-Prot以及TrEMBL数据库;Melanie软件包或ExPASy WWW服务器等;SWISS-MODEL、Swiss-Shop及其它基于网络的计算工具;综合微生物资源数据库(基因组研究所)。多能干细胞系的DNA甲基化水平、和/或基因表达水平、和/或分化倾向数据所产生的信息可储存于相关数据库中,可将所述信息用于测定与不同多能干细胞群相比的差异,或与不同多能干细胞群间(例如,ES细胞,和iPS细胞与piPS细胞、以及成体干细胞)或来自不同基因组、物种和不同个体群的相同类型多能干细胞(如iPS细胞)之间的参比DNA甲基化水平、参比基因表达水平和参比倾向分化数据相比的差异。
在一些实施方式中,所述系统具有用于运行一个或多个程序的处理器,例如,其中所述程序可包括操作系统(例如UNIX、Windows)、相关数据库管理系统、应用程序以及万维网服务器程序。所述应用程序可为万维网应用,所述程序包括数据库语言语句(例如,结构化查询语言(SQL)语句)的生成所必需的可执行代码。所述可执行文件可包括嵌入式SQL语句。另外,所述万维网应用可包含配置文件,所述配置文件含有指向各种软件实体的指针和地址,所述软件实体提供万维网服务器功能以及根据用户请求提供可访问的各种外部和内部数据库。所述配置文件还可将对服务器资源的请求指向适合的硬件设备,这一点在所述服务器分布于2个以上的独立计算机时应该是必要的。在一个实施方式中,万维网服务器支持TCP/IP协议。如这样的局域网有时被称为“内联网”。此类内联网的优势为它们允许与存在于万维网上的公共领域数据库(例如,GenBank或Swiss Pro万维网网点)进行便捷的通信。因此,在本发明特别优选的实施方式中,用户可使用由Web浏览器和Web服务器所提供的HTML界面直接对存在于因特网数据库的数据访问(例如经由超文本链接)。
在一个实施方式中,如本文所公开的系统可用于对DNA甲基化数据(例如,DNA甲基化谱或多个DNA甲基化目标基因的DNA甲基化水平)和/或基因表达谱(例如,基因表达谱或多个基因表达目标基因的基因表达水平)进行比较。例如,所述系统可在其内存上接收所测试多能干细胞系的基因表达谱或数据,并将所述基因表达谱与一个或多个存储的基因表达谱(例如,一种或多种参比多能干细胞系中的基因表达正常变异)进行比较,或者将其与从之前在较早时间点所分析的多能干细胞中而来的一个或多个基因表达谱进行比较。在一些实施方式中,使用Affymetrix微阵列系列软件5.0版(MAS 5.0)(可从Affymetrix获得,Santa Clara,California)获得基因表达谱,从而基于来自探针集的信号强度对一个基因或多个基因的相对丰度进行分析,并且可将MAS 5.0数据文件转换成数据库,然后用Microsoft Excel和GeneSpring 6.0软件(可从Agilent Technologies获得,Santa Clara,California)进行分析。在一些实施方式中,MAS 5.0软件的比较算法可用于获得对在给定样品中检测到了多少转录本的全面概述,并且允许对2种以上的微阵列数据集进行全面分析。
在本发明的这一方面及所有其它方面的一些实施方式中,所述系统可将“比较模块”中的数据与参比数据进行比较,所述比较模块可使用各种可用于比较操作软件程序和格式以对在测定模块中所测定的序列信息进行比较。在一个实施方式中,所述比较模块被配置为使用模式识别技术来对来自一个或多个输入和一个或多个参比数据模式的序列信息进行比较。所述比较模块可使用已存在的商用或免费的模式化比较软件进行配置,并可针对所进行的特定数据比较进行优化。所述比较模块还可提供与其包含的序列信息相关的计算机可读信息,例如:对DNA序列中存不存在CpG甲基化位点的测定,对样品中序列的甲基化水平的测定,对所述序列的浓度(例如,氨基酸序列/蛋白表达水平、或核苷酸(RNA或DNA)表达水平)的测定,或对基因表达谱的测定。
在本发明的一些实施方式中,系统包含比较软件,所述比较软件用于测定感兴趣的多能干细胞的DNA甲基化数据或感兴趣的多能干细胞的基因表达水平数据是否超出如本文所公开的多个多能干细胞的参比DNA甲基化水平(例如,DNA甲基化的正常变异)或参比基因表达水平(例如,目标基因的基因表达水平超出正常变异之外)。在一个实施方式中,在感兴趣的多能干细胞的DNA甲基化水平以统计学显著量高于参比DNA甲基化水平的情况下,表明DNA甲基化目标基因有表观遗传沉默和抑制的可能性。在其中所述DNA甲基化目标基因为肿瘤抑制基因的情况下,将表明所述多能干细胞具有变成癌细胞的倾向。在其中所述DNA甲基化目标基因为发育基因和/或谱系标志物基因的情况下,可将软件配置为表明或预示所述多能干细胞系将具有沿特定发育途径分化的效率低或不分化、或者不分化成表达所述谱系标志物基因的细胞。
同样地,在感兴趣的多能干细胞的基因表达水平以统计学显著量高于该基因的参比基因表达水平的情况下,所述软件指出了目标基因表达的可能性;如果所述DNA目标基因为发育或谱系特异性标志物,所述软件被配置成预示(或另外指出了)沿该细胞谱系最适宜分化的可能性。在其中所述DNA甲基化目标基因为致癌基因的情况下,可将所述软件配置成标志着感兴趣的多能干细胞系将可能具有成为癌细胞的倾向或可能不受控制进行增殖。
通过以计算机可读形式提供DNA甲基化数据和/或基因表达水平数据,可使用多能干细胞的DNA甲基化数据和/或基因表达水平数据来与存储设备内的其它多能干细胞的参比DNA甲基化水平和参比基因表达水平进行比较。例如,搜索程序可用于识别相应的参比数据(即,目标基因的参比DNA甲基化水平),所述参比数据与感兴趣的多能干细胞中相同目标基因的DNA甲基化相匹配。以计算机可读形式所作出的比较提供了可通过各种手段处理的计算机可读内容。所述内容可从比较模块中检索,或由检索得到的内容再次检索得到。
在一些实施方式中,所述比较模块提供了计算机可读比较结果,所述计算机可读比较结果能以计算机可读形式通过预先的标准或由用户定义的标准进行处理,从而提供了包含部分基于比较结果的内容的报告,所述报告可被存储或根据用户的需求使用显示模块输出。在一些实施方式中,显示模块能为用户显示部分基于比较结果的内容,其中,所述内容为表明如下结果的报告:所感兴趣的多能干细胞与记分卡的比较结果、所述多能干细胞的效用,例如,特定癌症的甲基化状态(例如,致癌基因和肿瘤抑制基因)和特异性发育基因和/或谱系标志物基因的甲基化状态。
在一些实施方式中,显示模块能够部分地基于比较结果为终端用户显示报告或内容,其中,所述内容表明如下结果的报告:所感兴趣的多能干细胞与记分卡的比较结果、所述多能干细胞的效用,例如,特定癌症的甲基化状态(例如,致癌基因和肿瘤抑制基因)和特异性发育基因和/或谱系标志物基因的甲基化状态。
在本发明的这一方面及所有其它方面的一些实施方式中,本发明的比较模块或任何其它模块可包含操作系统(例如,UNIX、Windows),在所述操作系统上运行相关数据库管理系统、万维网应用、以及万维网服务器。万维网应用可包含数据库语言语句(例如,标准查询语言(SQL)语句)的生成所必需的可执行代码。另外,所述可执行文件可包含嵌入式SQL语言。另外,所述万维网应用可包含配置文件,所述配置文件含有指向各种软件实体的指针和地址,所述软件实体包含服务器以及必须进行存取以服务于用户请求的各种外部和内部数据库。所述配置文件还可将对服务器资源的请求指向适合的硬件,这一点在所述服务器分布于2个以上的计算机时应该是必要的。在一个实施方式中,万维网服务器支持TCP/IP协议。像这样的局域网有时被成为“内联网”。此类内联网的优势为它们允许与存在于万维网上的公共领域数据库(例如,GenBank或Swiss Pro万维网网点)进行便捷通信。因此,在本发明特别优选的实施方案中,用户可使用由Web浏览器和Web服务器所提供的HTML界面直接对存在于因特网数据库的数据访问(例如经由超文本链接)。在本发明的其它实施方式中,其它界面(例如,基于HTTP、FTP、SSH以及VPN的界面)可用于与因特网数据库连接。
在本发明的这一方面及所有其它方面的一些实施方式中,计算机可读介质可为可移植的,以使其上存储的指令(例如计算机程序和软件)可被加载到任何计算机资源上,从而实现本文中所论述的本发明的方面。另外,应该理解的是,如上所述存在于计算机可读介质上的指令不限于作为运行主机的应用程序的一部分而被包含的指令。更确切的说,所述指令可具体为任何类型的计算机代码(例如,软件或微码),所述计算机代码可用于为处理器编程以实现本发明的方面。计算机可执行的指令可以适合的计算机语言或几个语言的组合进行书写。基本的计算生物学方法在例如如下文献和著作中进行了描述:Setubal andMeidanis等,Introduction to Computational Biology Methods(PWS PublishingCompany,Boston,1997);Salzberg、Searles、Kasif(著),Computational Methods inMolecular Biology,(Elsevier,Amsterdam,1998);Rashidi和Buehler,BioinformaticsBasics:Application in Biological Science and Medicine(CRC出版社,London,2000);以及Ouelette和Bzevanis Bioinformatics:A Practical Guide for Analysis of Geneand Proteins(Wiley&Sons,Inc.,第二版,2001)。
所述计算机指令可在软件、固件或硬件上实施,并包括由信息处理系统模块进行的任何种类的程序化步骤。所述计算机系统可与局域网(LAN)或广域网(WAN)连接。所述局域网的一个实例可为企业计算网络(corporate computing network)(包含访问因特网),计算机和包含数据处理系统的计算设备与所述企业计算网络相连。在一个实施方式中,所述局域使用通信行业标准的传输控制协议/因特网互联协议(TCP/IP)网络协议。传输控制协议(TCP)能用作传输层协议以提供计算机系统间的可靠、面向连接的传输层连接。网络层为所述传输层提供服务。TCP使用双向握手方案(two-way handshaking scheme)提供了用于在计算机系统间建立、维护以及终止逻辑连接的机制。TCP传输层使用IP作为它的网络层协议。另外,TCP提供了协议端口,从而在每条信息中包含源端口号和目的端口号的方式来区分在单个设备上执行的多个程序。TCP执行例如下述功能:字节流的传输、数据流定义、数据确认、丢失或损坏数据重传、以及通过单个网络连接复用多个连接。最后,TCP负责将信息压缩成数据报结构。在可选实施方式中,LAN可符合其它网络标准,所述其它网络标准包括但不限于国际标准组织的开放系统互连(International Standards Organization’sOpen Systems Interconnection)、IBM的SNA、Novell的Netware、以及Banyan VINES。
在一些实施方式中,如本文所述的计算机系统可包含任何种类的计算机电子连接组,所述连接组包括例如下列网络:因特网、内联网、局域网(LAN)或广域网(WAN)。另外,网络的连通性可为例如:远程调制解调器、以太网-(IEEE 802.3)、令牌环-(IEEE 802.5)、光纤式分布数据接口(FDDI)或异步传输模式(ATM)。计算机设备可为台式设备、服务器、便携式计算机、手持式计算设备、智能手机、机顶设备或任何其它的所需类型或设置。如本文中所用,网络包括下列网络的一种或多种:包括公共因特网、专用因特网、保密互联网、专用网络、增值网络、内联网、外联网以及上述的组合。
在本发明的一个实施方式中,计算机系统可包含模式比较软件,所述模式比较软件可用于测定感兴趣的多能干细胞系中DNA甲基化水平或基因表达水平的模式是否表明该细胞系为异常值,以及该干细胞系是否被预测为具有参比多能干细胞系正常特征以外的功能,或所述多能干细胞系沿感兴趣的特定细胞系具有低的分化效率或具有类似癌细胞特征(例如,增殖不受控制的倾向)的可能性。在这一实施方式中,所述模式比较软件可将感兴趣的多能干细胞的至少一些数据(例如,DNA甲基化水平和/或基因表达水平)与预定义的参比多能干细胞系的DNA甲基化以及基因表达水平(所述表达水平为DNA甲基化目标基因、和/或基因表达的目标基因、和/或谱系标志目标基因的表达水平)的模式进行比较,以测定它们匹配的程度。对所述匹配进行评价,并按部分或程度进行报告,这表明了与所有或一些模式的匹配程度。
在本发明的这一方面及所有其它方面的一些实施方式中,比较模块提供了计算机可读数据,所述计算机可读数据能以计算机可读形式通过预先的标准或由用户定义的标准进行处理,从而提供了检索内容,所述检索内容可被存储或根据用户的需求使用显示模块输出。
显示模块
根据本发明的一些实施方式,所述计算机化系统可包含显示模块或被可操作地连接至显示模块,所述显示模块如计算机显示器、触摸屏或视频显示系统。所述显示模块允许将用户指令提交给所述系统的用户,查看系统的输入,并作为用户界面的一部分用于使系统将结果显示给用户。任选地,所述计算机化系统可包含打印设备或可操作地连接至打印设备,以制出由所述系统输出的信息的印刷副本。
在一些实施方式中,结果可显示在显示模块上或被印制在报告(例如,记分卡报告)中,以表明感兴趣的多能干细胞的质量和/或效用,例如:以来自于发育基因和谱系特异性标志物的DNA甲基化和/或基因表达数据以及分化倾向数据为基础,用于特定治疗用途的效用(基于发展成癌细胞的可能性风险低),和/或用于特定目的的效用(基于沿某一细胞系谱系分化的可能性)。
在一些实施方式中,所述记分卡报告为由打印机打印出的硬拷贝。在可选实施方式中,所述计算机化系统可使用光或声音来报告记分卡,例如,来表明感兴趣的多能干细胞系的质量和效用。例如,在本发明的所有方面中,由如本文所公开的方法、分析、系统产生和存在于试剂盒中的记分卡可包含颜色标示的报告,以预示出或表明相比于一种或多种参比多能干细胞系(例如标准人胚胎干细胞系及此述用于检测的iPS细胞系)、或相比于研究人员选的另一“金色”标准多能干细胞系,所感兴趣的多能干细胞的质量。
例如,红色或其它预先定义的信号可表明多能干细胞系为异常多能干细胞系,并具有一种或多种基因,所述基因的DNA甲基化水平和/或基因表达水平相比于一个或多个参比多能干细胞系的水平以统计学显著量变化,从而预示着所述多能干细胞系具有不同于参比多能干细胞系的特征,例如可能具有分化成癌细胞系的倾向和/或分化成特定细胞谱系的效率低。在另一实施方式中,黄色或橙色或其它预先定义的信号可表明所述多能干细胞系可能具有一个基因,所述基因的DNA甲基化水平和/或基因表达水平相比一个或多个参比多能干细胞系的水平以统计学显著量变化,从而预示着所述多能干细胞具有稍微不同于所述参比多能干细胞系的特征,但该差异可能对功能不重要,例如:感兴趣的多能干细胞系仍具有要使用的特征性质量,并且不具有分化成癌细胞系的倾向等。在另一实施方式中,绿色或其它预先定义的信号可表明所述多能干细胞的质量高,并且相比于一个或多个参比多能干细胞系的水平,大多数基因的基因表达水平未有统计学显著量的变化,从而标志着所述多能干细胞系质量高且可能具有与所述参比多能干细胞系相似的特征。在一些实施方式中,可将“热图”(heat map)或渐变色方案(gradient color scheme)用于所述报告(例如,记分卡报告)以预示多能干细胞系的质量,例如,当梯度为红色-黄色-绿色梯度的情况下,其中红色信号将预示劣质和/或质量差,黄色信号将表明质量好,绿色信号将表明相比一个或多个参比多能干细胞系所感兴趣的多能干细胞质量高。位于红色和黄色之间、以及黄色和绿色之间的颜色标志着按红-黄-绿等级确定的多能干细胞系的性质。其它颜色方案和梯度方案均涵盖于所述报告中。
在一些实施方式中,所述报告(例如,记分卡)可显示出相比DNA甲基化的正常变化,在DNA甲基化水平上有差异的基因的总%和/或绝对总数。同样地,所述报告(例如,记分卡)可显示出相比基因表达的正常变化,具有基因表达水平差异的基因的总计%和/或绝对总数。仅作为说明性的实例,所述记分卡可表明测试多能干细胞具有21%基因和/或1057个基因被评估为差异甲基化的基因,还表明差异甲基化基因的正常变化(例如,在多个参比多能干细胞系中)为14.6-15.7%和/或731-785个基因。注意,这一实例是以约5000个基因(例如,如表12A中所示基因)的DNA甲基化分析为基础。
在一些实施方式中,所述报告(例如,记分卡)可显示出测试多能干细胞系的归一化值,所述多能干细胞系按参比多能干细胞系(例如,研究人员选的选定“金色”标准系)或参比多能干细胞系的正常变化进行归一化。因此,记分卡可显示出相比DNA甲基化的正常变化,具有DNA甲基化水平改变的基因的%差异和/或绝对数量的改变。同样地,所述报告(例如,记分卡)可显示出相比基因表达水平的正常变化,差异表达基因的%差异和/或绝对数量的改变。仅作为说明性的实例,记分卡可表明相比差异甲基化基因的正常变化(例如,多个参比多能干细胞系),测试多能干细胞中差异甲基化的基因增加了34%,和/或272种。
在一些实施方式中,所述报告(例如,记分卡)可将DNA甲基化基因结果和基因表达结果细分为癌基因和/或发育基因;例如,所述记分卡可显示出与DNA甲基化水平的正常变异相比具有不同DNA甲基化水平的谱系标志物基因和/或癌基因的%(总%或%变化)和/或绝对数量(总数或数量变化),还可显示与基因表达的正常变化水平相比差异表达的谱系标志物基因和/或癌基因的%(总%或%变化)和/或绝对数量(总数或数量变化)。
在一些实施方式中,所述报告可为颜色标示的,例如,如果差异DNA甲基化基因或差异表达基因的%或绝对数量超过某些预先确定的阈值水平,%值或绝对数值的颜色可为亮色(例如,红色)或其它易于鉴别的标志(例如由*)或突出显示,这一值表明所述多能干细胞系可能具有一些不符合需要的特征,并可能有质量问题(例如,倾向于形成癌症的可能)和/或具有有限制的效用。
在一些实施方式中,所述记分卡还可显示出参比多能干细胞系中正常的差异甲基化基因数量的参比值(以%或绝对数量),所述参比值可用于与测试的多能干细胞系的数值进行比较。同样地,在一些实施方式中所述记分卡还可显示出参比多能干细胞系中正常的差异表达基因数量的参比值(以%或绝对数量),所述参比值可用于与测试的多能干细胞系的数值进行比较。
在可选实施方式中,所述报告(例如,记分卡)可显示出沿具体谱系(例如,神经元、内胚层、外胚层、中胚层、胰腺和心脏谱系等)分化的%或相对分化倾向。
在一些实施方式中,所述报告(例如,记分卡)还可口头或出面地出现文本,给出所述多能细胞系适于哪些应用和/或效用的建议、和/或所述多能细胞系不适于哪些应用和/或效用的建议。
在本发明的这一方面及所有其它方面的一些实施方式中,报告数据、例如来自比较模块的记分卡(可在计算机显示器上作为一页或多页待印刷的报告的记分卡)来显示。在本发明的一个实施方式中,检索到的内容的页面可通过可打印的介质来显示。显示模块可为适于向用户显示计算机可读信息的任何设备或系统。所述显示模块可包含扬声器、阴极射线管(CRT)、等离子体显示器(plasma displays)、发光二极管(LED)显示器、液晶显示器(LCD)、打印机、真空荧光显示器(VFD)、表面传导电子发射显示器(SED)、场发射显示器(FED)等。
在本发明的一些实施方式中,万维网浏览器可用于提供用户界面,以允许用户与系统进行互动来输入信息、创建请求,以及可用于显示检索到的内容。另外,系统的各功能模块可适合于使用web浏览器来提供用户界面。使用Web浏览器,用户可创建从数据源(如数据库)中对数据进行检索的请求,并可与比较模块进行互动以进行比较和模式比对。用户可指向并点击图形用户界面通常使用的用户界面元素(如按钮、下拉菜单、滚动条等)来与系统进行互动并使系统运行本发明的方法。用户的Web浏览器制定的请求可通过网络传输到能处理或格式化所述请求的Web应用以生成对一个以上或更多数据库的查询,所述数据库可用于提供与DNA甲基化水平和基因表达水平相关的相关信息检索到的内容、处理这一信息并输出结果,例如以下任何结果中的至少一个:(i)显示是否存在具有DNA甲基化水平变化(相比于例如参比多能干细胞系的参比DNA甲基化水平)的DNA甲基化目标基因的指示(%和/或绝对数量);(ii)显示具有基因表达水平变化(相比于例如参比多能干细胞系的参比基因表达水平)的基因表达目标基因是否存在(%和/或绝对数量);(iii)显示具有基因表达水平变化(相比于例如参比多能干细胞系的参比谱系标志物基因表达水平)的谱系标志物目标基因是否存在(%和/或绝对数量)。在一个实施方式中,还可显示一种或多种参比多能干细胞系的谱系标志物基因的DNA甲基化水平或基因表达水平或基因表达水平。
虽然本文所述的分析、方法、系统和试剂盒参考DNA甲基化,应当理解的是,其它表观遗传标志物也能用于本发明的分析、方法、系统和试剂盒中。例如,能使用组蛋白修饰或翻译后修饰的模式和水平来代替或补充DNA甲基化和/或基因表达水平。已知某些多肽的翻译后变化模式与某些疾病有关,如,阿尔茨海默病和癌症。例如,参见国际专利申请公开号WO/2010/044892中的表3。本文所用的术语“翻译后修饰”或“PTM”指将化学部分共价添加至蛋白的反应。在多肽链初始合成(即,翻译)后,许多蛋白都能通过化学部分(本文中还称作“修饰部分”)的共价添加而被翻译后修饰。此类化学部分通常由酶添加至氨基酸侧链、或多肽链的羧基末端或胺基末端,并可被另一酶切割。单个或多个化学部分(相同或不同的化学部分)能被添加至单个蛋白分子。蛋白的PTM能改变它的生物功能,如它的酶活性、它与其它蛋白的结合或对其它蛋白的活化作用、或它的周转(turnover),并在细胞信号事件、有机体发育以及疾病中很重要。PTM的实例包括但不限于:泛素化、磷酸化、糖基化、SUMO化、乙酰化、S-亚硝基化或亚硝基化、瓜氨酸化或去亚胺基化、类泛素化、OClcNAc、ADP-核糖基化、甲基化、羟基化、fattenylation、ufmylation、异戊烯基化、豆蔻酰化、S-棕榈酰化、酪氨酸硫酸盐化、甲酰化和羧化。用于对翻译后修饰进行测定和定位的分析是本领域技术人员所熟知的。例如,参见美国专利号6,465,199和6,495,664;以及美国专利申请公开号2006/0078998、2006/0210978和2008/007025,通过引用将它们的内容并入本文。
试剂盒
本发明的另一方面涉及用于对多能干细胞系的质量进行测定的试剂盒,所述试剂盒包含:(i)用于对多个DNA甲基化基因的甲基化状态进行测量的试剂;(ii)用于对多个基因表达基因的基因表达水平进行测量的试剂;以及(iii)用于对多能干细胞向外胚层谱系、中胚层谱系以及内胚层谱系分化的倾向进行测量的试剂。在一些实施方式中,所述试剂盒进一步包含如本文所公开的记分卡。在一些实施方式中,所述试剂盒进一步包含使用说明书。
在一个方面中,本发明提供了含有记分卡的试剂盒。在一些实施方式中,试剂盒进一步包含用于将体细胞或分化细胞重编程为诱导多能干细胞(iPSC)的试剂,还包含用于对生成的iPS细胞系进行质量评估的试剂。用于将体细胞重编程为诱导多能干(iPS)细胞的试剂的实例为本领域技术人员所熟知,并且包括如本文所论述的试剂,例如但不限于如下专利申请中所公开的用于将体细胞重编程为iPS细胞或piPS细胞的方法和试剂盒:国际专利申请,WO2007/069666、WO2008/118820、WO2008/124133、WO2008/151058、WO2009/006997;和美国专利申请,US2010/0062533、US2009/0227032、US2009/0068742、US2009/0047263、US2010/0015705、US2009/0081784、US2008/0233610、US7615374;美国专利申请号,12/595,041、EP2145000、CA2683056、AU8236629、12/602,184、EP2164951、CA2688539、US2010/0105100、US2009/0324559、US2009/0304646、US2009/0299763、US2009/0191159,以引用的方式将其内容整体并入本文。在一些实施方式中,所述试剂盒包含用于病毒诱导或化学诱导生成重编程细胞(如iPS细胞)的试剂,如在EP1970446、US2009/0047263、US2009/0068742以及2009/0227032中公开的试剂,以引用的方式将其内容整体并入本文。
在一些实施方式中,如本文所公开的试剂盒还包含至少一种用于从许多细胞系中选择所需多能干细胞系的试剂,例如,为细胞系的预期用途选择一种或多种合适的多能干细胞系的试剂。此类试剂在本领域中是众所周知的,包括但不限于选择细胞特异性谱系标志物的标记抗体等。在一些实施方式中,所述标记抗体被荧光标记、或用磁珠等标记。在一些实施方式中,根据如本文所公开的方法,如本文所公开的试剂盒可进一步包含至少一种或多种用于对已存在的ES细胞和/或iPS细胞库进行高通量剖析(profiling)和注释等的试剂。
在一个方面,本发明提供了含有由本发明的分析、方法或系统所选的多能干细胞的试剂盒。除上述组分以外,所述试剂盒还可包括信息资料(informational material)。所述信息资料可为说明性资料、指导性资料、销售资料或其它涉及本文所述的方法和/或用于本文所述的分析、方法及系统的组分的资料。例如,所述信息资料可对根据本发明的用于对多能干细胞进行选择的方法、用于对多能细胞的多种性能进行表征的方法、或生成记分卡的方法进行描述。不受限制地,如果试剂盒包含适于给予受试者的物质,所述试剂盒还可包含递送装置。
在一些实施方式中,如本文所公开的方法、系统、试剂盒和设备可由服务提供商来进行,例如可在由服务提供商操作的诊断实验室中,使用如本文所公开的方法、试剂盒以及系统,评估研究人员的一种或多种样品(例如,样品阵列),其中,各样品包含多能干细胞系或不同的多能干细胞群。在此类实施方式中,完成如本发明公开的分析、方法和系统后,服务提供商可进行分析并为研究人员提供所分析的各多能干细胞系的特征报告(例如,记分卡)。在可选实施方式中,服务提供商可为研究人员提供分析的原始数据,并将分析留给研究人员来完成。在一些实施方式中,所述报告经由电子手段传达或发送给研究人员,例如,上传至安全的web站点上,或经由电子邮件或其它电子通信手段发送。在一些实施方式中,研究人员可通过任何手段(例如,通过邮寄、快递等)将样品发送给服务提供商;或者,服务提供商可提供从研究人员处收集样品的服务,并将它们运送到所述服务提供商的诊断实验室。在一些实施方式中,研究人员可将待分析的样品存放于服务提供商的诊断实验室处。在可选实施方式中,服务提供商提供拜访(stop-by)服务,其中,所述服务提供商派人员到研究人员的实验室,并同时提供试剂盒、装置和试剂在所述研究人员的实验室中对研究人员的多能干细胞系进行本发明的分析、方法和系统,然后分析结果并为研究人员提供所分析的各多能干细胞系或多种多能干细胞系的特征报告。
高通量样品处理以产生偏离记分卡或谱系记分卡的示例工作流程
作为示例性实例、而不是限制性的方式,由下面的案例研究阐释记分卡工作流程:大公司(或机构)计划建立干细胞库,该库向美国人口的X%提供HLA匹配的iPS细胞系(需要10,000iPS细胞系)。所有细胞系将成为可商购的,并且,为了成为对研究者和公司最有价值的资源,计划公开每个细胞系的记分卡表征。为了便于自动化,所有iPS细胞系在96孔板或384孔板中生长。大部分样品处理为自动化的,并通过中央LIMS给所有细胞系打上条码(barcoded)并跟踪。按照如下方式进行记分卡表征:
(1)偏离记分卡/多能性的证实:研究者按照如下方式对液体操作机器人进行加样:(i)一个96孔板,每孔一种iPS细胞系;(ii)96孔RNA提取试剂盒;(iii)预先加有96种标志物基因和对照的引物的定制qPCR板(96孔或384孔)。
(2)机器人进行整块板的RNA提取,并将来自各孔的RNA用移液器移至单独的qPCR板(当使用96孔qPCR板时)中或1/4块板(当使用384孔qPCR板时)中。在相同的板中进行反转录,并将经打码的Ct表传输到LIMS。
(3)谱系记分卡/分化潜能的定量:从每孔有一种iPS细胞系的96孔板开始,研究者将收集各孔中的细胞,并将它们铺在3个新的96孔板中,形成三个生物重复(biologicalreplicates)以用于拟胚体(EB)分化。添加分化诱导培养基,并将所述板置于培养箱中N天(不更换培养基)。
(4)在EB分化预定的时间段(例如n天)后,将所述板装载到液体操作机器人中,并进行如步骤1和步骤2中所述的qPCR分析,唯一例外之处在于使用具有分化特异性标志物基因的定制qPCR板。
(5)在实验完成时,研究者将未处理的Ct值上载至定制记分卡软件中。这一软件导入来自任何常见qPCR机器的输出数据格式,使用大量管家基因进行相对归一化,然后计算出记分卡预测。
(6)基因集选择。如本文所公开的,记分卡包含2个独立但互补的部分:(i)偏离记分卡,和(ii)谱系记分卡。在一些实施方式中,对生成偏离记分卡的数据的分析可由具有用于测定给定细胞系是否分类为多能细胞系的最相关基因的单个96孔qPCR板(或在一些实施方式中,384孔qPCR板上的4种样品)组成。在一些实施方式中,对生成谱系记分卡的数据的分析可由具有用于对给定细胞系的分化倾向进行定量的最相关基因的2个96孔板(或在一些实施方式中,384孔qPCR板上的2种样品)组成。
在一些实施方式中,可对使用多重qPCR分析的用于两种记分卡的两种分析的最优基因选择进行进一步验证和优化。此外,在一些实施方式中,可在谱系记分卡分析之前进行偏离分析,以测定所感兴趣干细胞系的多能状态,并有可能排除对用于谱系记分卡分析的EB分化分析的需要。因此,在一些实施方式中,可进行验证阶段(validation phase),所述验证阶段使用为偏离记分卡分析和谱系记分卡分析这两者而设计的单个384孔qPCR板。在一些实施方式中,将多个板子用于各细胞系的分析,其中包括用于各感兴趣的生物干细胞重复的板、用于处于其多能状态的干细胞系的板以及用于处于其EB状态的干细胞系的板。在一些实施方式中,可使用下列基因集选择法来选择待包含于此类384孔qPCR板(“tech-dev板”)中的基因:
1.归一化:各板含有处于技术复制(technical duplicate)的6种归一化基因、3个阳性对照和1个阴性对照。
2.支持的细胞类型/谱系:可对谱系标志物基因进行选择,所述谱系标志物基因与用于基于qPCR记分卡的基于NanoString的原型(prototype)相同(外胚层谱系、中胚层谱系和内胚层谱系,以及神经谱系和造血谱系,或表7或表13A和13B、以及表14中所列出的基因的任意选择)。另外,在一些实施方式中,谱系标志物基因可包含其它类别的基因集,包括但不限于:多能细胞标记、表皮(epidermis)、间充质干细胞、骨、软骨、脂肪、肌肉、血管、心脏、淋巴细胞、骨髓细胞、肝、胰、上皮、运动神经元、单核细胞-巨噬细胞(参见表13A和表13B以及表14)。
3.附加特性:在一些实施方式中,用于偏离记分卡分析和谱系记分卡分析的qPCR板还可包含:(i)通常用于将体细胞重编程为iPSC的4种重编程病毒的qPCR引物(例如,针对重编程基因Sox2、Oct4、c-myc、Klf4等中的任何基因的引物);以及(ii)用于雄-雌分类的5基因标记,以对潜在的样品混杂(sample mix-ups)进行检测(参见表14);以及(iii)用于对广泛的细胞凋亡进行测定的1基因标记。在一些实施方式中,用于偏离记分卡分析和谱系记分卡分析的板还包含ES细胞系和iPS细胞系中在转录和/或表观遗传方面变异最大的基因的子集,所述基因的子集已在本文中被发明人鉴定出。
验证:在一些实施方式中,可对用于进行生产偏离记分卡和谱系记分卡数据的分析的qPCR板进行验证。验证可在3个阶段中进行。在初始验证阶段期间,将对qPCR板进行评估,以测定其是否能提供与NanoString分析相似的准确度和预测能力。可进行第二生物验证阶段,所述阶段将对基于qPCR的记分卡在更多多能干细胞中的预测性以及向各种不同的感兴趣谱系分化的倾向进行评估和证实。可进行最后的分析验证,所述验证将使优化qPCR板与所有早期数据的技术一致性优化。更具体而言,在一些实施方式中,验证阶段将根据如下方式进行:
1.技术qPCR分析验证。可直接将来自基于NanoString的记分卡的结果与来自基于qPCR的记分卡的结果进行比较,比较NanoString和qPCR平台间各基因的准确度、灵敏度和鲁棒性。此外,还可证实基于qPCR的记分卡能够预测出定向的运动神经元分化的效率的细胞系特异性差异。
2.生物学qPCR分析验证和范围扩展。本发明人已使用基于EB的方案对预测运动神经元分化的谱系记分卡进行了详实验证。可使用相似的基于EB的方案对造血分化的谱系记分卡进行类似的验证。因此,可使用几种不同的其它分化方案来定量测定向多种不同谱系分化的效率,从而对谱系记分卡的可预测性进行验证。此外,为了校准偏离记分卡,可使用至少约100种或更多种多能干细胞系来对qPCR分析进行验证,例如,所述多能干细胞系选自但不限于,人多能细胞系、部分重编程细胞系、胚胎癌细胞系等。可将此类验证用于优化和重新设计基于qPCR的记分卡分析优化,从而使得基于qPCR的记分卡可大规模生产,并可为特定的干细胞系或谱系偏好而量身定制。
3.技术验证。在一些实施方式中,可期望进行进一步的验证,以对qPCR分析的分析操作和软件进行验证,例如,板的稳定性、qPCR板输出读取的容易度等。此类验证和优化通常为本领域技术人员所知。
记分卡的用途
在一些实施方式中,可将如本文所公开的方法、系统、试剂盒和记分卡用于临床上和研究应用中的各种方法。例如,将如本文所公开的方法、系统、试剂盒和记分卡用于对多能干细胞系响应药物的表观遗传变化和功能基因组变化进行鉴定,或用于对在药物筛选中使用的具有相同性能的多种多能干细胞系进行选择,这用于确保药物筛选的质量以及确保任何潜在的命中(hits)都是受药物的影响、而不是由于不同多能干细胞的变异。在一些实施方式中,将如本文所公开的方法、系统、试剂盒和记分卡用于对适用于治疗用途(例如,干细胞疗法或其它再生医学)的多能干细胞系进行鉴定和选择,以确保所植入的细胞系不具有分化成癌细胞的易感性。类似地,可将如本文所公开的方法、系统、试剂盒和记分卡用于对由哺乳动物(例如,人)生成的iPSC进行表征和验证,以确保所述iPSC具有品质,并能与其它多能干细胞进行比较。
在一些实施方式中,可将如本文所公开的方法、系统、试剂盒和记分卡用于临床上,以对特定多能干细胞系的临床安全性和效用进行测定。
在一些实施方式中,可将如本文所公开的方法、系统、试剂盒和记分卡用作质量控制来对不同代和/或低温贮藏过程前后的多能干细胞的特征进行监测,例如,从而确保并未随时间(例如,传代或低温贮藏后)而发生显著的表观遗传变化或功能基因组变化。例如,可将如本文所公开的方法、系统、试剂盒和记分卡用于对干细胞库中的所有干细胞进行表征,以对处于所述库中的每个干细胞系进行编目分类(catalogue),并确保所述干细胞在解冻后具有与低温贮藏前一样的性能。
在一些实施方式中,可将各多能干细胞系的原始数据(例如,DNA甲基化和/或基因表达数据)和/或记分卡数据存储于集中式数据库(centralized database),其中,可将所述数据和/或记分卡用于为特定的用途或效用选择多能干细胞系。因此,本发明的一个方面涉及含有如下数据中的至少一种的数据库:多种多能干细胞系的DNA甲基化数据、基因表达数据、以及记分卡,而在一些实施方式中,所述数据库包含干细胞库中的多种多能干细胞系的DNA甲基化数据、基因表达数据、和/或记分卡。
在一些实施方式中,可将如本文所公开的方法、系统、试剂盒和记分卡用于研究中,以对多能干细胞分化成不同谱系时的功能基因组变化进行监测。在一些实施方式中,可将如本文所公开的方法、系统、试剂盒和记分卡用于对来自特定疾病的多能干细胞特征进行监测和测定,例如,可对来自具有遗传缺陷或特定遗传多态性、和/或患有特定疾病的受试者的多能干细胞进行监测,例如,可对来源于患有神经退行性疾病(如ALS)的受试者的iPSC细胞相比于来自健康受试者(如上述受试者的健康兄弟姐妹)的正常iPSC细胞的功能基因组差异进行监测和测定。类似地,可对iPS细胞在功能基因组和分化倾向上与ES细胞或其它多能干细胞相比而言是否具有可比性进行测定。另外,如本文所公开的方法、系统、试剂盒和记分卡能在不需要畸胎瘤分析和/或嵌合体小鼠生成的情况下充分地对干细胞系的多能性进行表征,因此显著提高了对多能干细胞系进行高通量表征的能力。
在一些实施方式中,记分卡可包含于用于对患者特异性iPS细胞系进行制造和验证的“全部包括(all-included)”试剂盒中。例如,在此类实施方式中,所述试剂盒可包含(i)样品收集设备,例如,收集患者体细胞或分化细胞时所需的针或管,而在一些实施方式中,为患者知情同意书(patient consent form);(ii)用于将收集的患者体细胞或分化细胞重编程为iPS细胞的试剂,例如,所述试剂盒包含任意数量或组合的重编程因子(例如,如本文所述的病毒/DNA/RNA/蛋白)以及ES细胞培养基;以及(iii)用于生成如本文所公开的记分卡的分析,例如,用于进行DNA甲基化分析的试剂、用于进行基因表达分析的试剂、以及用于对iPS细胞系分化潜能进行验证的试剂。在一些实施方式中,所述试剂盒可包含一种或多种参比多能干细胞系,所述参比多能干细胞系可用作阳性对照(或阴性对照,例如,在所述多能干细胞系已被鉴定为具有不需要特征的情况),以作为所述试剂盒的质量对照。在一些实施方式中,例如,为了与待评估的患者iPS细胞进行比较,所述试剂盒还可以包含待使用的参比多能干细胞的记分卡。在一些实施方式中,基于来自质量对照的结果(例如,由本文所公开的生物信息学测定来测定),可将“全部包括”试剂盒用于预测患者iPS细胞系的效用。在一些实施方式中,“全部包括”试剂盒还可以另外包含用于新产生的专利iPS细胞系向感兴趣的特定细胞类型(例如,心肌细胞、β细胞、肝细胞、毛囊(hair follicle)干细胞、软骨、造血细胞等)定向进化的材料、试剂和方案。
在一些实施方式中,可将如本文所公开的记分卡、方法、试剂盒和分析用于提供服务,如“细胞到质量保证的多能干细胞系”服务,所述服务例如可直接在诊所中或在临床诊断实验室中进行、或作为客户寄送服务(mail-in service)由专用设施(dedicatedfacility)进行。例如,此类服务依照如下方式运行:研究人员或患者将体细胞(例如分化细胞)寄送给服务提供商,从而服务提供商使用如本文所公开的通常已知的方法从所述体细胞生成iPS细胞系,然后服务提供商在所生成的多能iPS细胞系上进行如本文所公开的方法和分析,例如,服务提供商将进行(i)分化倾向分析、(ii)DNA甲基化分析以及任选的(iii)基因表达分析,接着进行分析以为每种被分析的iPS细胞生成记分卡。服务提供商还可任选地建议一种或多种选定的iPS细胞系对于特定用途的适用性,例如,服务提供商可建议“iPS细胞系1”将适用于神经元分化,所述“iPS细胞系1”被鉴定为沿运动神经元分化途径进行分化的效率高;或类似地,服务提供商可建议“iPS细胞系2”将适用于分化成供肝细胞再生医学所用的肝细胞,所述“iPS细胞系2”被鉴定为沿肝谱系进行分化的效率高。类似地,服务提供商可建议“iPS细胞系6”由于具有潜在癌症形成的风险而可能不适用于再生医学中的治疗用途,所述“iPS细胞系6”被鉴定出具有离群DNA甲基化基因、和/或特异性基因的离群基因表达水平(例如,癌基因的离群DNA甲基化或基因表达)。在一些实施方式中,服务提供商不能提出建议,而能提供由服务提供商生成并分析的针对各iPS细胞系的记分卡报告。在一些实施方式中,随报告记分卡副本一起,服务提供商将iPS细胞系返还给研究人员或患者。
在一些实施方式中,可将如本文所公开的记分卡、方法、试剂盒和分析用于建立数据库,其中,此类数据库在对含有大量已控制质量并预测效用的多能细胞系的多能干细胞储存库(repository)(例如,中央储存库(如,组织和/或细胞库))进行安排(organizing)和分类编目中十分有用,使得能够使用含有库中每种多能干细胞系各自的记分卡的数据库来为研究人员的预期用途特异性地选择特定的多能干细胞系。例如,数据库的用户可点击网站上连接到所述数据库的“对于我的应用而言的最佳建议细胞系”按键,然后获得对研究人员的特定用途有用的多种细胞系的信息及其认证。在一些实施方式中,能容易地对此类数据库的用途进行扩展,从而以使用户可上载感兴趣的特定细胞类型的微阵列数据(例如,DNA甲基化数据和/或基因表达数据),可对这一微阵列数据运行记分卡算法,并将结果与多能干细胞库的数据库记分卡结果进行比较。打一个简单的比方,所述数据库的运作可类似于谷歌的“搜索类似网站(search for similar sites)”,由此可将所述数据库用作选择对新的组织类型和/或混合组织类型有用的细胞系的有效方法、或用作对细胞库中可能具有分化成期望的分化干细胞系的潜能的多能干细胞系进行鉴定的有效方法。
在一些实施方式中,可将如本文所公开的记分卡、方法、试剂盒和分析用于为大量生产来鉴定和选择期望多能干细胞系,例如,使用如本文所公开的方法、分析和记分卡来对大量(例如,大批培养或生物反应器中)生长良好和/或有效率的多能干细胞系的品质进行鉴定、表征以及验证,并选择在大量培养中能有效分化成特定细胞类型的多能干细胞系。
在另一实施方式中,可将如本文所公开的记分卡、方法、试剂盒和分析用于基于多能鲁棒性的性能来选择多能干细胞系,例如,如本文所公开的方法、分析和记分卡可用于对易于体外培养的多能干细胞系进行鉴定(例如,几乎不需要、和/或不易自发分化、和/或保持多能性性能)。例如,在一些实施方式中,可使用所述方法、分析和记分卡在如下情形中对多能干细胞系进行评估:培养前、然后在培养期间的不同时间点和培养后、以及在不同的培养条件和培养基条件下,从而鉴定出在短期培养条件下和长期培养条件下保持其初始质量的一种或多种多能干细胞系。
在另一实施方式中,可将如本文所公开的记分卡、方法、试剂盒和分析用于为药物响应性选择多能干细胞系,例如,在与药物或其它试剂或刺激(例如,对于心脏多能祖细胞的电刺激)接触之前、接触期间或接触之后,可使用如本文所公开的方法、分析和记分卡对多能干细胞系进行评估,以生成所述多能干细胞系的药物代谢和/或药物基因组学标记,例如,其可用于鉴定对药物筛选和药物发现(包括,例如药物毒性分析)非常有用的多能干细胞系。
在另一实施方式中,可将如本文所公开的记分卡、方法、试剂盒和分析用于基于其安全性谱来对多能干细胞系进行选择,例如,可使用如本文所公开的方法、分析和记分卡对多能干细胞系进行评估,以对其转变成癌细胞的可能性、或转移或分化成特定细胞类型的可能性、或去分化的可能性进行鉴定,这在临床应用(如细胞替换治疗和再生医学)中对于验证多能干细胞系或其分化后代的安全性而言非常有用。
在另一实施方式中,可将如本文所公开的记分卡、方法、试剂盒和分析用于在效力方面对多能干细胞系进行选择。例如,可使用特定多能干细胞系的记分卡预测,以预测出来源于所述多能细胞系的分化细胞是否沿特定期望细胞谱系继续进行分化和/或沿特定期望细胞谱系继续进行分化的程度、和/或一旦植入受试者(例如,人患者)或在动物模型(例如,大鼠或小鼠疾病模型等)中它们是否能进行增殖。更一般地说,在一些实施方式中,记分卡不仅可用于对多能细胞系的行为进行预测,还可用于对直接或间接地来源于所述多能细胞系的分化细胞的行为进行预测。
在另一实施方式中,可将如本文所公开的记分卡、方法、试剂盒和分析用于对在体内具有相同或非常相似的多能干细胞特征的多能干细胞系进行选择(例如,选择在体内环境下为该细胞的如实表现(truthful representation)的多能干细胞)。例如,可使用如本文所公开的方法、分析和记分卡对多能干细胞系进行评估,以鉴定出适用于疾病建模的多能干细胞系,因为使用在体内与它们的相应细胞非常相像的多能干细胞系是很重要的。因此,通过例如将多能干细胞系的性能(在记分卡上列出)与收集自受试者(例如,动物模型、或疾病模型(如啮齿动物疾病模型))的相应细胞进行比较,本领域技术人员可容易地使用如本文所公开的记分卡来预测哪些多能细胞系在体内与它们的相应细胞相像,从而使洁净(clean)的ES细胞系参比群相对于该细胞在细胞内的表现而言偏离最小。
在另一实施方式中,可将如本文所公开的记分卡、方法、试剂盒和分析用于对具有不同的或新的多能性(pluripotency)或专能性(multipotency)状态的多能干细胞系进行选择和/或质量控制、和/或验证,例如以提供能用于在体外分化并产生细胞类型但又不属于通常定义的人ES细胞系的多能干细胞系(例如,人基底状态(ground-state)ES细胞系和部分重编程细胞系,例如,部分诱导多能干(piPS)细胞,所述细胞能被进一步重编程为多能干细胞)的信息。
已证明连续体外培养并传代改善了iPS细胞系的质量(参见Polo等,NatBiotechnol.,2010Aug,28(8):848-55;和Nat Rev Mol Cell Biol.2010Sep,11(9):601;以及Nat Rev Genet.,2010Sep,11(9):593)。另一方面,连续传代很昂贵。因此,在一些实施方式中,如本文所公开的记分卡、方法、试剂盒和分析可用于对足以改善所述多能干细胞系的质量所需要的传代数进行测量。
在进一步的实施方式中,如本文所公开的记分卡、方法、试剂盒和分析可在各种不同的研究和临床用途中用于对多能干细胞进行表征、监测以及验证,例如,此类领域的典型应用包括但不限于:(i)对疾病机制感兴趣的实验室和/或公司(例如,使用如本文所公开的试剂盒或服务来减少生成用于疾病建模和小规模药物筛选的iPS细胞系和分化细胞的复杂度);(ii)试图鉴定针对疾病给定靶标的小分子和/或生物制剂的实验室和/或公司(例如,使用如本文所公开的试剂盒和/或服务以使得能够大量生产用于药物筛选的高度标准化细胞);(iii)对多能干细胞系进行质量控制和验证的临床和临床前研究小组,其中,他们的兴趣在于生产用于植入到人或动物中的细胞(例如,使用如本文所公开的试剂盒和/或服务以使得质量控制能够处于足够取得监管部门批准(例如,FDA批准)的精确水平上);(iv)希望把所提供的多能干细胞系的信息(包括建议、以及关于性能、质量以及效用的数据)提供给他们的顾客的组织库(例如,使用如本文所公开的试剂盒和/或服务(对大量多能细胞系的质量和/或效用提供无偏倚的评估),例如以便宜且高通量的方式、例如最终在涵盖细胞库中全体细胞系群的100,000种多能干细胞系上运行所述分析);(v)私人客户,所述私人客户例如为了未来的再生医学目的而作为一种健康保险政策,希望为他们自己和/或它们的子女或其它后代生成或任选地存入库中至少一种或多种由他们的体分化细胞生成的多能细胞系(例如,iPS细胞系(或piPS细胞系))。
治疗用途
各种疾病和障碍已被建议作为干细胞疗法的潜在靶,例如,癌症、糖尿病、心力衰竭、肌肉损伤、乳糜泻、神经障碍、神经退行性障碍和溶酶体贮积病,以及任何下列疾病:ALS、帕金森病、单基因疾病和Mendelian疾病、衰老、人体全身性磨损和撕裂(general wearand tear)、风湿性关节炎及其它炎性疾病、先天缺陷等。因此,本发明的分析、方法、系统和试剂盒可用于对多能干细胞(用于给予受试者以进行治疗)进行选择。
因此,在一个方面中,本发明提供了对受试者的疾病或障碍进行治疗、预防或改善(amelioration)的方法,所述方法包括向受试者给予多能干细胞(例如,多能细胞、衍生自多能细胞的分化细胞以及通过其它涉及重编程的方法(例如转分化(transdifferentiation))获得的分化细胞),其中,所述多能干细胞由本发明的分析、试剂盒、方法或系统选择。不受限制地,可在给予受试者之前,对多能干细胞进行处理以使其沿特定谱系分化。
适于本发明方法的给药途径包括局部和全身给药。一般而言,局部给药导致与受试者整个身体相比将更多细胞递送至特定位点;而全身给药导致将所述细胞递送至受试者的基本整个身体。示例性的给药模式包括但不仅限于:注射、输液、滴注、吸入或摄食。“注射”不受限制地包括:静脉注射和输液、肌内注射和输液、动脉内注射和输液、鞘内注射和输液、室内注射和输液、囊内注射和输液、眼内注射和输液、心内注射和输液、真皮内注射和输液、腹膜内注射和输液、经气管注射和输液、皮下注射和输液、表皮下注射和输液、关节内注射和输液、囊下注射和输液、蛛网膜下注射和输液、脊髓内注射和输液、脑脊髓内注射和输液以及胸骨内注射和输液。局部给药的一种方法为通过肌肉注射。
在受试者中,给药的一种优选方法为移植此类多能细胞或由所述多能干细胞衍生而来的分化后代。术语“移植”包括例如,自体移植(从患者的一个部位移除并转移细胞至同一患者的相同或其它部位)、同种异体移植(同一物种的成员之间的移植)、和异种移植(不同物种成员之间的移植)。本领域技术人员清楚了解植入或移植用于治疗各种疾病的细胞的方法,这些方法可用于本发明。
为了向受试者给药,可以药学上可接受的组合物的形式来提供多能干细胞。这些药学上可接受的组合物包含与一种或多种药学上可接受的载体(添加剂)和/或稀释剂共同配制而成的一个或多个多能干细胞。如下详述,本发明的药物组合物可被具体配制用于以固体或液体形式给药,包括适宜于下列给药的形式:(1)口服给药,例如顿服药(drenches,水性或非水性的溶液或悬浮液)、灌服药(gavage)、锭剂(lozenge)、糖衣剂(dragee)、胶囊剂、丸剂、片剂(例如,目标是用于口含吸收、舌下吸收和全身吸收的片剂)、大丸剂(boluse)、散剂、颗粒剂、应用于舌部的膏剂;(2)胃肠道外给药,例如,作为如无菌溶液或悬浮液或缓释制剂经皮下注射(subcutaneous)、肌内注射(intramuscular)、静脉注射(intravenous)或硬膜外注射(epidural injection)给药;(3)局部施用,例如,作为霜剂、软膏剂、或控释贴剂或喷雾剂施用于皮肤;(4)阴道内给药或直肠内给药,例如作为阴道栓剂(pessary)、霜剂或泡沫剂;(5)舌下给药(sublingually);(6)眼部给药(ocularly);(7)经皮给药(transdermally);(8)经粘膜给药(transmucosally);或(9)鼻部给药(nasally)。此外,可使用药物递送系统将细胞注射入或植入患者体内。参见例如,Urquhart等,Ann.Rev.Pharmacol.Toxicol.24:199-236(1984);Lewis编著,“Controlled Release ofPesticides and Pharmaceuticals”(Plenum Press,New York,1981);美国专利No.3,773,919;以及美国专利No.35 3,270,960,以引用的方式将上述文献内容全部并入本文。
本文所使用的术语“药学上可接受的”是指在健全的(sound)医学判断范围内,适合用于与人类和动物组织相接触而无过度的毒性、刺激、过敏反应或者其它问题或并发症(complication),具有合理的收益/风险比的化合物、材料、组合物和/或剂型。
本文所使用的术语“药学上可接受的载体”意味着参与将主题化合物从生物体的一个器官或部分搬运或转运至生物体的另一器官或部分的药学上可接受的材料、组合物或辅料(vehicle),如液态或固态的填充剂、稀释剂、赋形剂、制造助剂(manufacturing aid,如,润滑剂、滑石、硬脂酸镁、硬脂酸钙或硬脂酸锌、或硬脂酸)、或溶剂包封材料。从与制剂的其它成分相容以及对患者无害的意义上来说,各载体必须是“可接受的”。一些可作为药学上可接受的载体的材料的实例包括:(1)糖,如乳糖、葡萄糖和蔗糖;(2)淀粉,如玉米淀粉和土豆淀粉;(3)纤维素及其衍生物,如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素和醋酸纤维素;(4)西黄蓍胶(tragacanth)粉;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠和滑石;(8)赋形剂,如可可脂和栓蜡;(9)油,如花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油和大豆油;(10)二醇,如丙二醇;(11)多元醇,如甘油、山梨糖醇、甘露醇和聚乙二醇(PEG);(12)酯,如油酸乙酯和月桂酸乙酯;(13)琼脂;(14)缓冲剂,如氢氧化镁和氢氧化铝;(15)海藻酸;(16)无热原(pyrogen-free)的水;(17)等渗盐水;(18)林格氏溶液;(19)乙醇;(20)pH缓冲溶液;(21)聚酯、聚碳酸酯和/或聚酸酐;(22)填充剂,如多肽和氨基酸;(23)血清组分,如血清白蛋白、HDL和LDL;(24)C2-C12醇,如乙醇;以及(25)其它可用于药物制剂中的无毒相容物质。湿润剂、着色剂、隔离剂(release agent)、包衣剂、甜味剂、增香剂、芳香剂、防腐剂和抗氧化剂也可存在于制剂中。本文所使用的术语如“赋形剂”、“载体”或“药学上可接受的载体”等可互换使用。
在给予多能干细胞的情况下,术语“给药/给予”也包括将该细胞移植至受试者中。本文使用的术语“移植”是指植入或转移至少一个细胞至受试者的过程。术语“移植”包括例如,自体移植(从患者的一个部位移除并转移细胞至同一患者的相同或其它部位)、同种异体移植(同一物种的成员之间的移植)、和异种移植(不同物种成员之间的移植)。
多能干细胞可与药物活性剂一起联合给予受试者。本文所用的术语“药物活性剂”指在体内释放时,具有期望生物活性(例如,在体内的治疗、诊断和/或预防性能)的试剂。可以理解的是,所述术语包括稳定化和/或延长释放型的药物活性剂。示例性的药物活性剂包括但不限于在以下著作中发现的药物活性剂:Harrison’s Principles of InternalMedicine,第13版,T.R.Harrison等著,McGraw-Hill N.Y.,NY;Physicians DeskReference,第50版,1997,Oradell New Jersey,Medical Economics Co.;Pharmacological Basis of Therapeutics,第8版,Goodman和Gilman,1990;UnitedStates Pharmacopeia,The National Formulary,USP XII NF XVII,1990;Goodman和Oilman的The Pharmacological Basis of Therapeutics的现行版;以及The Merck Index的现行版,将其所有内容整体并入本文。
本文所使用的术语“受试者”是指人或动物。通常,所述动物为脊椎动物,如灵长类动物、啮齿动物、家畜或狩猎动物(game animal)。灵长类动物包括黑猩猩、食蟹猴、蜘蛛猴和猕猴(如恒河猴)。啮齿动物包括小鼠、大鼠、旱獭、雪貂、兔和仓鼠。家畜和狩猎动物包括牛、马、猪、鹿、野牛、水牛、猫科物种(如,家猫)、犬科物种(如,狗、狐狸、狼)、鸟类物种(如,鸡、鸸鹋(emu)、鸵鸟)和鱼类(如,鳟鱼、鲶鱼和鲑鱼)。患者或受试者包括前面所述的任何子集,例如,一个或多个组或物种(如人类、灵长类动物或啮齿动物)的上述所有。在本文描述的方面的特定的实施方式中,受试者是哺乳动物,例如,灵长类动物、如人类。术语“患者”和“受试者”在本文中可互换使用。受试者可以为雄性或雌性。
优选地,受试者是哺乳动物。所述哺乳动物可以是人、非人灵长类动物、小鼠、大鼠、狗、猫、马或牛,但不仅限于这些实例。除人以外的哺乳动物可有利地用作代表与自身免疫病或炎症相关的障碍的动物模型的受试者。此外,本文描述的方法和组合物可用于治疗家畜和/或宠物。
受试者可为之前已被诊断有或鉴定为遭受或患有具有如下疾病的特征的障碍的受试者:基于干细胞的疗法将对该疾病有用。
受试者可为当前未利用基于干细胞的疗法进行治疗的受试者。
在本文所述方面的一些实施方式中,所述方法进一步包括选择患有能受益于基于干细胞疗法的疾病的受试者。
如本文所用的术语“神经退行性疾病或障碍”包含特征为中枢神经系统(CNS)、尤其是在神经元水平的变性或改变(例如,阿尔茨海默病、帕金森病、亨廷顿舞蹈病、肌萎缩性脊髓侧索硬化症(amyotrophic lateral sclerosis)、癫痫和肌营养不良)的疾病或病情。它进一步包含神经炎症(neuro-inflammatory)和脱髓鞘(demyelinating)病情或疾病(例如,白质脑病(leukoencephalopathies)和脑白质营养不良(leukodystrophies))。示例性的神经退行性障碍包括但不限于:AIDS痴呆复合征(dementia complex)、肾上腺脑白质营养不良(Adrenoleukodystrophy)、Alexander病(Alexander disease)、Alpers病(Alpers'disease)、阿尔茨海默病、肌萎缩性脊髓侧索硬化症、共济失调毛细血管扩张症(Ataxiatelangiectasia)、Batten病(Batten disease)、牛海绵状脑病(Bovine spongiformencephalopathy)、Canavan病(Canavan disease)、皮质基底节变性(Corticobasaldegeneration)、克罗伊茨费尔特-雅各布病(Creutzfeldt–Jakob disease)、路易体痴呆(Dementia with Lewy bodies)、致死性家族性失眠症(Fatal familial insomnia)、额颞叶变性(Frontotemporal lobar degeneration)、亨廷顿舞蹈病、小儿雷夫叙姆病(Infantile Refsum disease)、肯尼迪病(Kennedy's disease)、Krabbe病(Krabbedisease)、Lyme病(Lyme disease)、Machado-Joseph病(Machado–Joseph disease)、多发性硬化(Multiple sclerosis)、多系统萎缩(Multiple system atrophy)、神经棘红细胞增多症、Niemann–Pick病(Niemann–Pick disease)、帕金森病、Pick病(Pick's disease)、原发性侧索硬化(Primary lateral sclerosis)、进行性核上性麻痹(Progressivesupranuclear palsy)、雷夫叙姆病病(Refsum disease)、Sandhoff病(Sandhoffdisease)、弥漫性脱髓鞘硬化(Diffuse myelinoclastic sclerosis)、脊髓小脑共济失调(Spinocerebellar ataxia)、脊髓亚急性联合变性(Subacute combined degeneration ofspinal cord)、脊髓痨(tabes dorsalis)、Tay–Sachs病(Tay–Sachs disease)、中毒性脑病(Toxic encephalopathy)、和传染性海绵状脑病(Transmissible spongiformencephalopathy)。
如本文所用的术语“癌症”包含以解除管制或不受控制的细胞生长为特征的恶性肿瘤,例如癌(carcinoma)、肉瘤(sarcoma)、白血病和淋巴瘤。术语“癌症”包括原发性恶性肿瘤(例如,其细胞除原始肿瘤位点外未迁移到受试者身体中其它位点的恶性肿瘤)和继发性恶性肿瘤(例如,由转移(肿瘤细胞向不同于原始肿瘤位点的继发位点迁移)而形成的恶性肿瘤)。
术语“癌”包括上皮组织或内分泌组织的恶性肿瘤,所述恶性肿瘤包括:呼吸系统癌,胃肠系统癌,泌尿生殖系统癌,睾丸癌,乳腺癌,前列腺癌,内分泌系统癌,黑色素瘤,绒毛膜癌,以及宫颈癌、肺癌、头颈部癌、结肠癌和卵巢癌。术语“癌”还包含癌肉瘤(carcinosarcomas),所述癌肉瘤包含由癌组织和肉瘤组织组成的恶性肿瘤。“腺癌(adenocarcinoma)”指来源于腺组织的癌,或其中肿瘤细胞形成可辨认的腺体结构的肿瘤。
术语“肉瘤”包括中胚层结缔组织恶性肿瘤,例如骨肿瘤、脂肪瘤、以及软骨瘤。
术语“白血病”和“淋巴瘤”包含骨髓造血细胞恶性肿瘤。白血病倾向于以单个细胞来增殖,而淋巴瘤倾向于以实体瘤块来增殖。白血病的实例包括急性骨髓性白血病(AML)、急性早幼粒细胞白血病(acute promyelocytic leukemia)、慢性髓细胞性白血病(chronicmyelogenous leukemia)、混合谱系白血病(mixed-lineage leukemia)、急性单核细胞白血病(acute monoblastic leukemia)、急性淋巴母细胞性白血病(acute lymphoblasticleukemia)、急性非淋巴母细胞性白血病(acute non-lymphoblastic leukemia)、母细胞型套细胞淋巴瘤(blastic mantle cell leukemia)、骨髓增生异常综合征(myelodyplasticsyndrome)、T细胞白血病、B细胞白血病以及慢性淋巴细胞性白血病(chronic lymphocyticleukemia)。淋巴瘤的实例包含霍奇金病(Hodgkin’s disease)、非霍奇金淋巴瘤、B细胞淋巴瘤、趋上皮的(epitheliotropic)淋巴瘤、复合性淋巴瘤(composite lymphoma)、间变性大细胞淋巴瘤(anaplastic large cell lymphoma)、胃和非胃黏膜相关淋巴组织淋巴瘤(gastric and non-gastric mucosa-associated lymphoid tissue lymphoma)、淋巴组织增生性疾病(lymphoproliferative disease)、T细胞淋巴瘤、伯基特淋巴瘤(Burkitt’slymphoma)、套细胞淋巴瘤、弥漫性大细胞淋巴瘤(diffuse large cell lymphoma)、淋巴浆细胞样淋巴瘤(lymphoplasmacytoid lymphoma)、和多发性骨髓瘤。
例如,由本发明的分析、试剂盒、方法和系统选择的多能细胞可用于治疗多种癌症,例如,少突神经胶质瘤(oligodendroglioma)、星形细胞瘤(astrocytoma)、多形性胶质母细胞瘤(glioblastoma multiforme)、宫颈癌、子宫内膜样癌(endometriod carcinoma)、子宫内膜浆液性癌(endometrium serous carcinoma)、卵巢子宫内膜样癌(ovaryendometroid cancer)、卵巢Brenner瘤(ovary Brenner tumor)、卵巢粘液性癌(ovarymucinous cancer)、卵巢浆液性癌(ovary serous cancer)、子宫癌肉瘤(uteruscarcinosarcoma)、乳腺小叶癌(breast lobular cancer)、乳腺导管癌(breast ductalcancer)、乳腺髓样癌(breast medullary cancer)、乳腺粘液癌(breast mucinouscancer)、乳腺管状癌(breast tubular cancer)、甲状腺腺癌(thyroid adenocarcinoma)、甲状腺滤泡状癌(thyroid follicular cancer)、甲状腺髓样癌(thyroid medullarycancer)、甲状腺乳头状癌(thyroid papillary carcinoma)、甲状旁腺腺癌(parathyroidadenocarcinoma)、肾上腺腺瘤(adrenal gland adenoma)、肾上腺癌(adrenal glandcancer)、嗜铬细胞瘤(pheochromocytoma)、结肠腺瘤轻度不典型增生(colon adenomamild displasia)、结肠腺瘤中度不典型增生(colon adenoma moderate displasia)、结肠腺瘤重度不典型增生(colon adenoma severe displasia)、结肠腺癌(colonadenocarcinoma)、食管腺癌(esophagus adenocarcinoma)、肝细胞癌(hepatocelluarcarcinoma)、口腔癌(mouth cancer)、胆囊腺癌(gall bladder adenocarcinoma)、胰腺癌(pancreatic adenocarcinoma)、小肠腺癌(small intestine adenocarcinoma)、弥漫性胃腺癌(stomach diffuse adenocarcinoma)、前列腺(激素难治性(hormone-refract))、前列腺(未治疗的)、肾嫌色细胞癌(kideny chromophobic carcinoma)、肾透明细胞癌(kidneyclear cell carcinoma)、肾嗜酸细胞瘤(kidney oncocytoma)、肾乳头状癌(kidenypapillary carcinoma)、睾丸非精原细胞瘤癌(testis non-seminomatous cancer)、睾丸精原细胞瘤(testis seminoma)、膀胱移行细胞癌(urinary bladder transitionalcarcinoma)、肺腺癌(lung adenocarcinoma)、肺大细胞癌(lung large cell cancer)、肺小细胞癌(lung small cell cancer)、肺鳞状细胞癌(lung squmous cell carcinoma)、霍奇金淋巴瘤(Hodgkin lymphoma)、MALT淋巴瘤(MALT lymphoma)、非霍奇金淋巴瘤(non-hodgkins lymphoma)(NHL)弥漫性大B、NHL、胸腺瘤(thymoma)、皮肤恶性黑色素瘤(skinmalignant melanoma)、皮肤基底细胞癌(skin basolioma)、皮肤鳞状细胞癌(skinsquamous cell cancer)、皮肤Merkel细胞癌(skin merkel zell cancer)、皮肤良性痣(skin benign nevus)、脂肪瘤(lipoma)以及脂肪肉瘤异常细胞生长(liposarcomaabnormal cell growth)。
药物筛选
本发明的方法、分析、系统和试剂盒可用于开发基于明确定义的人细胞的体外分析。已存在的用于药物筛选/测试和毒理学研究的分析有几点不足,因为它们为动物来源、永生细胞系、或来源于尸体。因为这些替代品往往未能很好地反映正常人细胞的生理机能,在将来可建立干细胞衍生的分析(例如,心脏细胞和肝细胞的均质群),所述分析可以为这些目的发挥重要作用。例如,本发明的方法、分析、系统和试剂盒可用于对能够沿疾病表型谱系分化的多能干细胞进行鉴定和/或验证。额外地或者可选地,本发明的方法、分析、系统和试剂盒可用于对能够分化成器官、和/或组织谱系、或它们的一部分的多能干细胞进行鉴定和/或验证。然后可将这样鉴定出的多能细胞用于对测试化合物进行筛选。
此外,目前可得的与人类疾病相关的分子水平和细胞水平上的大量新信息(例如,微阵列数据),使开发和测试关于致病相互关系(pathogenetic interrelation)的假设显得至关重要。实验获得的来自所有发育阶段以及甚至囊胚的特定细胞类型(基于植入前的基因诊断而被认为怀有病变)对于建模和了解人疾病的各方面可能是有用的。因此,此类细胞系还对药物的测试很有价值。
因此,本发明提供了用于筛选测试化合物的生物活性的方法,所述方法包括:(a)获得多能干细胞,其中,对所述多能细胞沿特定谱系的分化进行鉴定和验证;(b)任选地,使得或容许所述多能干细胞向特定谱系进行分化;(c)将所述细胞与测试化合物接触;以及(d)测定化合物对细胞的任何影响。对细胞的影响可以为能直接观察到的影响、或者也可以为通过使用报告分子而间接观察到的影响。
本文所使用的术语“生物活性(biological activity或bioactivity)”是指测试化合物影响生物样品的能力。生物活性可不受限制地包括在生物分析中诱发刺激、抑制、调节、毒性或致死响应。例如,生物活性可以指化合物的以下能力:调节酶的效果、阻断受体、刺激受体、调节一个或多个基因的表达水平、调节细胞增殖、调节细胞分裂、调节细胞形态、或上述能力的任意组合。在某些情况下,生物活性可以指测试化合物在生物样品中产生毒性效应的能力。
如上文所论述的,特定谱系可为具有疾病表型的谱系和/或具有疾病基因型的谱系。或者,所述特定谱系可为具有器官和/或组织、或它们的一部分的表型和/或基因型的谱系。
本文所用的术语“测试化合物”指将对其影响细胞的能力进行筛选的化合物的集合。测试化合物可包括各种不同的化合物,包括化合物、化合物的混合物,例如,多糖、小分子有机物或小分子无机物(例如,分子量小于2000道尔顿、小于1000道尔顿、小于1500道尔顿、小于1000道尔顿、或小于500道尔顿的分子)、生物大分子(例如,肽、蛋白、肽类似物、以及它们的类似物和衍生物)、肽模拟物(peptidomimetics)、核酸、核酸类似物和衍生物、由生物材料(例如,细菌、植物、真菌、或动物细胞或组织)制得的提取物、天然存在或合成的成分。
根据待实践的具体实施方式,测试化合物可以溶液中的游离形式提供,或者可以附着于载体或固体支持物(例如,珠子)。大量适当的固体支持物可用于固定测试化合物。适当的固体支持物的实例包括琼脂糖、纤维素、葡聚糖(例如作为Sephadex,Sepharose可商购)、羧甲基纤维素、聚苯乙烯、聚乙二醇(PEG)、滤纸、硝化纤维素、离子交换树脂、塑料膜、聚胺甲基乙烯基醚(polyaminemethylvinylether)马来酸共聚物、玻璃珠、氨基酸共聚物、乙烯-马来酸共聚物、尼龙、和丝等。另外,对于本文所述的方法,测试化合物可以单独筛选或成组筛选。在预期有效测试化合物的命中率低至给定组中不会有超过1个阳性结果的情况下,成组筛选特别有用。
有大量的小分子文库在本领域中是已知的,并且是可商购的。可使用本文所述的筛选方法就炎性小体(inflammasome)抑制对这些小分子文库进行筛选。例如,来自Vitas-MLab和Biomol International,Inc的文库。可对化合物文库进行筛选,例如,从来自NIHRoadmap、分子文库筛选中心网络(Molecular Libraries Screening Centers Network,MLSCN)的10,000种化合物和86,000种化合物而来的化合物文库。http://www.broad.harvard.edu/chembio/platform/screening/compound_librari es/index.htm上给出了化合物文库的详细列表。化学品文库或化合物文库通常为最终用于高通量筛选或工业生产的储存的化学品的集合。所述化学品文库可简单地由一系列储存的化学品组成。各化学品的相关信息存储在收录了如下信息的一些类型的数据库中:化合物的化学结构、纯度、量、以及物理化学特征。
不受限制地,可对任何浓度(相对于对照,该浓度可在合适的时期内对细胞产生影响)的化合物进行测试。在一些实施方式中,对浓度在如下范围内的化合物进行了测试:约0.01nM-约1000mM、约0.1nM-约500μM、约0.1μM-约20μM、约0.1μM-约10μM、或约0.1μM-约5μM。
所述化合物筛选分析可用于高通量筛选。高通量筛选为如下过程,其中,对化合物文库就给定活性进行测试。高通量筛选寻求快速且并行地筛选大量化合物。例如,使用微量滴定板和自动化分析仪器,制药公司每天可并行完成多达100,000个分析。
本发明的化合物筛选分析可涉及对可观测的报告子功能的一种以上测量。在与测试化合物的孵育时间内进行的多次测量可以允许跟踪生物活性。在一个实施方式中,在多个时间上对报告子功能进行测量,从而使得能够对测试化合物在不同孵育时间的影响进行监测。
可在所述筛选分析后接着进行后续的分析,以进一步鉴定所鉴定出的测试化合物是否具有预期用途所需的性能。例如,可在所述筛选分析后接着进行选自于由如下任何测量所组成的组中的第二分析:生物利用度、毒性或药代动力学,但不限于这些方法。
用于产生多能干细胞系记分卡的算法和生物信息学分析方法。
本文所论述的记分卡包含以下几种组件:(i)使用DNA甲基化分析来鉴定表观遗传修饰,例如,相比于正常表观遗传变异(例如,参比多能细胞系中目标基因集的DNA甲基化正常变异),多能细胞中的DNA甲基化基因离群值;(ii)使用基因表达分析来鉴定基因,其中,相比于参比多能细胞系中目标基因集的DNA表达水平正常变异,所述基因的基因表达水平在多能细胞系中为离群值;(iii)使用分化分析来预测细胞分化偏倚,所述分化分析使用来自于(i)和(ii)的表观遗传修饰(例如,DNA甲基化)数据和/或基因表达数据、和/或来自于已被诱导分化(例如,定向分化)的多能细胞系的基因表达/DNA甲基化数据。
这3种应用或分析各自需要不同的生物信息学方法,以获得对多能细胞系的质量和效用实际有用的指示。
在一些实施方式中及本文所论述的,可使用任何DNA甲基化方法,例如,可通过多种方法来进行DNA甲基化分析,所述方法包括但不限于:基于富集的方法(例如,MeDIP、MBD-seq和MethylCap)、基于亚硫酸氢盐的方法(例如,RRBS、亚硫酸氢盐测序、Infinium、GoldenGate、COBRA、MSP、MethyLight)以及限制性消化的方法(例如,MRE-seq)。这些DNA甲基化方法各自需要特定的生物信息学方法来进行数据处理和归一化,以使得所述数据可用于记分卡分析。例如,这些生物信息学方法包括对GC和CpG偏倚(bias)的校正、对基因组DNA序列的亚硫酸氢盐特异性比对(bisulfite-specific alignment)等。
一旦对DNA甲基化数据进行了适当的归一化,便可鉴定显示出DNA甲基化水平改变的任何基因和/或基因组区域,所述DNA甲基化水平改变可能会有助于或干扰多能细胞系或其后代的预期用途。在一些实施方式中,本发明人已开发出了统计算法,所述统计算法通过将感兴趣的多能细胞系的DNA甲基化谱与一种或多种参比多能干细胞系(例如,在先表征为好的多能细胞系,或者在先表征为差的多能细胞系)进行比较来鉴定此类基因组区域。从技术上讲,这是通过对给定的候选位点集中的每一个进行统计检验(例如,t检验、Fisher精确检验和ANOVA)来完成的。为了改善鲁棒性,可使用错误发现率的阈值和细胞系与参比多能干细胞系间的绝对DNA甲基化差异,并且可将所述参比多能干细胞系的变异性考虑在内。
如实施例中所公开的,本文所公开的记分卡总结了一种或多种感兴趣的多能干细胞系是否偏离了ES细胞参比细胞系。本文所用的ES细胞参比系可为任何数量的感兴趣的ES细胞。在可选实施方式中,ES细胞参比系可构成多种iPSC和/或ES细胞(例如,在本文实施例中所用的至少约10种或至少约20种的低传代ES细胞系)的DNA甲基化正常范围和基因表达正常范围。
仅除了微阵列数据需要另外的归一化步骤外,用于计算偏离记分卡的算法(在图11A中进行了概述)与用于DNA甲基化数据和基因表达数据的相同。
在一些实施方式中,用于测定基因表达或DNA甲基化记分卡的算法包括以下步骤:
(i)数据导入:导入来自感兴趣的多能干细胞以及至少一种、或至少约10种以上参比多能干细胞系(用作高质量参比多能干细胞对照系)的基因表达数据和/或DNA甲基化数据。在一些实施方式中,所述基因表达数据为微阵列数据;在一些实施方式中,所述DNA甲基化数据为全基因组DNA甲基化或RRBS(简化表观亚硫酸氢盐测序)。
(ii)任选的数据归一化步骤(仅基因表达需要):进行基因表达数据的归一化(例如,微阵列数据的gcRMA归一化),然后将所有基因表达值按比例分到0-10的目标区间范围。在一些实施方式中,将目标区间参比范围归一化成0-100、或0-1000、或0-约500、或任何优选的目标区间范围。
(iii)基因定位(gene mapping):进行基因定位来对各基因的DNA甲基化水平(对启动子区域中所有CpG进行平均)和基因表达水平(对可变转录本(alternativetranscripts)进行平均)进行测定。在一些实施方式中,将Ensembl基因注释用于匹配各基因的DNA甲基化水平和基因表达水平。在一些实施方式中,对样品间的差别测序覆盖度进行加权方式校正(weighting scheme corrects)。换言之,“参比走廊”或“参比DNA甲基化水平”或“参比基因表达水平”提供了参比高质量ES细胞中任何基因的DNA甲基化水平和基因表达转录水平的预期水平或范围的一系列值。
(iv)参比比较:将每个基因的归一化的DNA甲基化值和归一化的基因表达值与参比多能干细胞系的归一化的DNA甲基化值和归一化的基因表达值进行比较。如果多能干细胞系的DNA甲基化值或基因表达值超出中心四分位数大于约1.2倍的四分位距或大于1.5倍的四分位距(例如,使用Tukey离群过滤(Tukey’s outlier filter)),则将所述多能干细胞系鉴定为“离群”细胞系。换言之,如果所述DNA甲基化水平或基因表达水平超出“参比走廊”或超出“参比DNA甲基化范围”或“参比基因表达范围”(参见作为示例性实例的图1C),那么所述多能干细胞系被认为是“离群”干细胞系。
(v)相关性过滤:应用相关性过滤对被鉴定为“离群”干细胞系的多能干细胞进行鉴定,所述“离群”干细胞系具有大于约15%或约20个百分点(20%)的DNA甲基化差异或至少约1.5倍或约至少2倍的表达变化,并在使用或进一步分析中不考虑所述多能干细胞离群干细胞系。
(vi)基因集:载入含有用于感兴趣的应用的相关基因的基因集,例如,在表12A、表12B、表12C、表13A、表13B和表14中所列出的基因;以及谱系标志物基因(例如,表7、表13A-表13B和表14中所列出的基因)和癌基因(例如,如在表6A和表6B中所列出的基因)。
(v)报告总结:列出每种感兴趣的多能干细胞系的偏离数。例如,所述报告可提供与正常值偏离的%、或与正常值偏离的绝对数,以及任选地,可提供所影响的基因的名称(参见例如图4B,和表6A、表6B、表9A)。
在一些实施方式中,偏离记分卡以使用Tukey离群过滤的非参数离群值(non-parametric outlier)检测为基础(Tukey,1977)。感兴趣的细胞系中DNA甲基化值或基因表达值超出中心四分位数大于1.5倍的四分位距的所有基因均被视为可疑离群值,并按此进行标记(flagged)。
接下来考虑变化幅度,最终仅将与ES细胞参比的偏离大到足以被认为具有生物学意义的基因报告为离群值。为了当前的研究,本发明人对于DNA甲基化使用至少20个百分点的阈值,而对于基因表达则使用至少2倍的阈值,这与先前的工作一致(Bock等,2010),并且在图10C中进一步得以证实。为了说明取决于所影响的基因,偏离可或多或少地值得关注,在一些实施方式中,可将多个基因列表组合,例如,两个以上需要对其DNA甲基化缺陷特别密切监测的基因列表,即,谱系标志物基因和癌基因。在偏离记分卡的扩展版本中对这些基因的偏离进行特别强调(表12A、表12B和表12C)。最后,在一些实施方式中,还可以使用用于鉴定出或标记出离群多能干细胞系的其它策略,所述策略包括,例如基于放缓t检验的参数法。在一些实施方式中,Tukey离群过滤可用于鉴定离群多能干细胞系,其具有能够通过“参比走廊”箱线图直观可视化的额外优点(参见图1C和图4A)。
谱系记分卡计算
本文所公开的谱系记分卡将感兴趣的细胞系的分化倾向相对于一种或多种参比多能干细胞系(例如,高质量和/或低传代的多能干细胞系,如在本文实施例中所用的19种低传代ES细胞系的参比值)进行定量。用于计算谱系记分卡的算法(在图11B中概述)使用放缓T检验(Smyth,2004)和在t分数上进行的基因集富集分析(Nam和Kim,2008;Subramanian等,2005)的组合。
为了给针对谱系特异性分化倾向而进行的定量提供生物学基础,本发明人创建了用于以下谱系的若干标志物基因集:3个胚层中的每一种(外胚层、中胚层、内胚层)、以及神经谱系和造血谱系(参见图7和图13A)。随后,将Bioconductor的limma程序包用来执行对感兴趣的细胞系获得的EB的基因表达和ES细胞参比获得的EB的基因表达进行比较的放缓T检验,并计算出了有助于相关基因集的所有基因的平均t分数。高平均t分数表明测试EB中基因集的基因表达增加,并被认为是相应谱系高分化倾向的指示。相反,低平均t分数表明相关基因的表达降低,并被认为是相应谱系低分化倾向的指示。为了增加分析的鲁棒性,所述平均t分数对分配至给定谱系的所有基因集进行平均。谱系记分卡图表(图5B和图5D)列出了这些“基因集平均t分数的平均值”以作为细胞系特异性分化倾向的定量指标。谱系记分卡分析和验证使用自定义R脚本(custom R scripts)进行(http://www.r-project.org/)。
如本文实施例部分所证实的,特异性细胞分化效率可用于对多能干系分化成特定细胞谱系的潜能进行预测的可靠而稳健的测试。例如,如本文实施例中所证实的,运动神经元分化效率(由Boulting等的方法通过实验获得)提供了用于对谱系记分卡的预测功效进行测定的真实测试集(genuine test set):已在进行2个数据集间的首次比较之前将谱系记分卡的生物信息学算法确定了下来,并且没有对记分卡的方面进行回顾性优化(retrospectively optimized)以改善拟合(fit)。
用于计算谱系记分卡的算法(在图11B中概括)包括以下步骤:
(i)数据导入:导入至少200种、或至少约300种、或至少约400种、或至少约500种或更多种来自于如下来源的标志物基因的基因表达数据和/或DNA甲基化数据:(i)所感兴趣的多能干细胞的拟胚体(EB),以及(ii)参比多能干细胞系(例如,用作高质量参比多能干细胞对照细胞系的多能干细胞系)的至少1种、或至少约5种、或至少约10种或更多种拟胚体(EB)。在一些实施方式中,所述基因表达数据为微阵列数据;在一些实施方式中,所述DNA甲基化数据为全基因组DNA甲基化或RRBS(简化表观亚硫酸氢盐测序)。
(ii)任选的分析归一化步骤:使用阳性spike-in对照来计算分析归一化因子,并由此将数据进行尺度重标。在一些实施方式中,每个实验或重复实验都需要所述spike-in归一化。
(iii)样品归一化:对所有实验进行方差稳定化(variance stabilization)和归一化。在一些实施方式中,方差稳定化和归一化可由本领域技术人员通过容易获取的软件进行(例如,Bioconductor的VSN程序包)。
(iv)参比比较:将来自各感兴趣的多能干细胞系的EB的每个谱系标志物基因(例如,在表7、表13A-表13B和表14中列出)的归一化DNA甲基化值和归一化基因表达值与参比多能干细胞系的EB的相同谱系标志物基因的归一化DNA甲基化值和归一化基因表达值进行比较。在一些实施方式中,可将统计分析用于所述比较,例如,对各标志物基因使用放缓T检验来对所感兴趣的多能干细胞系的EB重复和参比高质量EB所获得的值的参比集进行比较。在一些实施方式中,可使用任何统计程序包,例如,使用Bioconductor的limma程序包等。
(v)基因集:载入谱系标志物基因集,所述基因集含有感兴趣的细胞谱系或胚层的特征性相关基因。使用Gene Ontology、MolSigDB或来自于manual curation efforts,任何基因列表都可被使用并可被本领域技术人员容易地编译。此类基因列表的实例在本文的表7、表13A、表13B和表14中公开。
(vi)富集分析:对于每个基因集(其中,测定了DNA甲基化和/或基因转录表达水平),计算每个集所含的所有标志物基因的平均t分数。
(vii)谱系记分卡报告:对于感兴趣的每种多能干细胞系,列出所有相关基因集的t分数平均值,以对所述多能干细胞将分化成为的谱系提供记分卡评估(例如,参见图5A和图5B)。
生物信息学分析和数据访问
除方法特异性的数据归一化和记分卡计算(如上所述)外,可按照如下方式进行数据集的生物信息学分析:
(i)分层聚类。DNA甲基化水平的分层聚类(例如,Ensembl注释的转录本的启动子区域中的所有CpG的覆盖度加权平均(coverage-weighted average))以及基因表达水平的分层聚类(例如,对于每个Ensembl基因,通过对微阵列上的所有相关探针进行平均)可根据本文实施例部分(参见图1、图3、图8和图9)所公开的方式进行。在分层聚类前,为了让两个数据集有等量权重(equal weight),可分别将2个数据集的每一个各自归一化成零均值和单位方差。图1、图3、图8和图9中所示的热图为250个基因的代表性选择。
(ii)注释聚类和启动子特征(图2D)。基于Ensembl基因注释(启动子定义为转录起始位点周围-5kb至+1kb的序列窗),可使用最常用的软件程序包(例如,带有默认参数的DAVID(Huang等,2007)和EpiGRAPH(Bock等,2009))来对最具变异性的基因中的共同特征进行鉴定。
(iii)ES细胞系与iPS细胞系的分类(图3D)。可在给定标记中对所有基因利用平均DNA甲基化水平或表达水平很容易地验证ES基因标记和iPS基因标记。可将逻辑回归(logistic regression)用于选择区别阈值(discriminatory threshold),并且可通过留一法交叉检验(leave-one-out cross-validation)对每种标记的预测能力进行评价。为了得到新的分类子,可让支持向量机(support vector machines)关注于DNA甲基化数据、基因表达数据、或两种数据集的组合。根据本文实施例部分所公开的,可对7500种随机选择的属性(attributes)各自进行分类,这在单个分析中对分析来说是简单且计算机上可行的最大量的属性。在一些实施方式中,可通过留一法交叉检验,并以随机属性集对超过100种分类子的性能进行平均(如图3D中所示),从而对所有分类子的预测能力进行评价。在一些实施方式中,可使用有监督特征选择(supervised feature selection)或无监督特征选择来增加预测的准确度。在一些实施方式中,可使用现成的软件(例如,使用Weka软件(Frank等,2004))进行预测。
(iv)表观遗传记忆(memory)的线性模型。还可生成DNA甲基化水平和/或基因表达水平的线性模型。例如,如本文所公开的,可为DNA甲基化和基因表达二者构建2种可选的线性模型。一个模型可用于在ES细胞特异性平均DNA甲基化(或基因表达)水平上对每个基因的iPS细胞特异性平均DNA甲基化(或基因表达)水平进行回归。第二种模型可用于在ES细胞特异性平均DNA甲基化(或基因表达)水平和成纤维细胞特异性平均DNA甲基化(或基因表达)水平上对每个基因的iPS细胞特异性平均DNA甲基化(或基因表达)水平进行回归。
差异甲基化区域(DMR)的鉴定
可使用通常已知的方法(例如,传统的峰值检测)对差异甲基化基因组区域(例如,差异甲基化基因)进行鉴定(如以下文献所述:Bock,C.等,Bioinformatics 24,1(2008)和Park,P.J.,Nat.Rev.Genet.10,669(2009),以引用的方式将其内容整体并入本文)。然而,传统的峰值检测可能并不很适合于差异甲基化区域(DMR)的鉴定,因为当在一个样品中检测到边界峰(borderline peaks)而在另一个中未检测到时,会产生大量伪命中(C.Bock,未发表的观测)。
与之不同,在一些实施方式中,可使用统计检验直接将2个样品相互进行比较,从而鉴定出差异甲基化区域。对于具有RRBS数据的给定基因组区域,可对两种样品中的甲基化CpG和非甲基化CpG的数量进行计数,然后进行Fisher精确检验,从而获得p值(表明该区域为DMR的可能性)。类似地,对于MeDIP和MethylCap,可对两种样品映射至区域内部的读段数量进行计数,然后使用Fisher精确检验来将这些值与映射至基因组中别处的读段总数进行比对。例如,如果使用Infinium分析对甲基化进行测量,则可使用配对样本t检验(paired-samples t-test)来比较区域内部的所有Infinium探针的2种样本的β值。这些测试可在大量基因组区域上并行进行(例如,在所有CpG岛上),并使用q值法对多重检验的p值进行校正(Storey,等,PNAS 100,9440(2003))。但只有当绝对DNA甲基化差异超过20%(对于RRBS和Infinium来说)或当读段数有至少2倍的差异(对于MeDIP和MethylCap而言)时,将q值小于0.1的基因组区域标记为超甲基化或低甲基化(取决于差异的方向性)。发明人根据这些阈值在不同细胞类型间的大量比较中的实际效用选择出这些阈值,并没有进一步的合理解释。在一些实施方式中,还可以给测序覆盖度不足的基因组区域做标记,但不将它们从差异甲基化区域(DMR)分析中排除。在一些实施方式中,如果使用MeDIP和MethylCap分析测量甲基化,建议对于样品而言至少每一千万总读段中具有至少10个读段(读段覆盖度较高);而如果使用RRBS测量甲基化时,建议两种样品中的每种具有最少5个CpG与至少5个读段。
在一些实施方式中,差异甲基化区域(DMR)鉴定的这一统计方法要求确定进行该分析所针对的基因组区域集或一系列基因组区域集。例如,可选择在表12A和/或12C中列出的基因集或一系列基因集。在一些实施方式中,可实行两路策略(two-way strategy)来最大化在多能干细胞中发现感兴趣的DMR的机会。在一些实施方式中,一旦选定基因组区域集或一系列基因组区域集,可进一步将分析具体聚焦在CpG岛和基因启动子上,其为表观遗传调节的主要候选者。因为相比全基因组的情况而言,CpG岛和基因启动子的数目相对较少减轻了多重检验校正的负担(multiple-testing correction),因而这一方法使得对于具有已知功能作用的区域的统计功效提高,十分有用。在可选实施方式中,可使用基因组的1千碱基(或其它预设基因组大小)tiling来检测位于任何候选区域外的DMR。为了把网撒的更宽,在一些实施方式中,还可以集中全面的13种基因组区域集,其中不仅包括CpG岛和基因启动子,还包括CpG岛海滩(Irizarry,R.A.等,Genet.41 178(2009))、增强子(Heintzman,N.D.等,Nature 459,108(2009))、进化保守区域及其它类型的基因组区域。在一些实施方式中,所有这些区域集的差异甲基化区域(DMR)数据可使用Python和R脚本进行计算,并可以在线使用(万维网:“//meth-benchmark.computational-epigenetics.org/”)。
用于测定表观遗传修饰(例如,不同的DNA甲基化水平)的候选位点可包含所有基因组区域、或特定类型的基因组区域(例如,启动子、增强子、绝缘子元件、CpG岛、CpG岛海滩等)。在一些实施方式中,还可使用DNA甲基化数据直接得出高变异性的区域,并使用DNA序列数据预测易于表观遗传改变的基因组区域。此外,在一些实施方式中,可使用涉及癌症、正常和异常发育、以及作为候选的疾病的基因和基因组区域的先验知识。
此外,本领域的技术人员可使用文本挖掘(text mining)、信息检索、统计学习和排序方法中的任何一种或它们的组合,基于公开的可用信息和各种各样的功能基因组数据集来排列基因和基因组区域的优先次序。本发明人使用这些方法来定义基因集、网络以及途径(pathways)。
在一些实施方式中,作为对DNA甲基化的替代或补充,可评估其它表观遗传修饰,例如,但不限于组蛋白修饰。DNA甲基化与其它表观遗传修饰高度相关,因此很显而易见的是,能从DNA甲基化数据中获得的信息还可以从其它表观遗传修饰(例如,组蛋白甲基化和乙酰化等)中获得。
基因表达分析也可以通过很多方法进行,所述方法的应用比用于DNA甲基化分析的方法更广泛。典型的实例包括但不限于:基因表达微阵列、cDNA和RNA测序、基于成像的方法(例如,NanoString)和各种使用PCR以及qPCR的方法。用于这些方法的归一化已被广泛描述。在此本发明人使用gcRMA算法来对Affymetrix微阵列数据进行归一化。
在一些实施方式中可使用NanoString数据,并且在本文中,本发明人基于这一数据系统地评价了多种算法。以这些结果为基础,本发明人发现VSN算法最适合于对NanoString数据进行归一化。
在一些实施方式中,对任何基因水平上的基因表达进行测量,例如,非编码基因、microRNA基因以及在多能细胞和分化细胞中正常或异常存在的其它类型的RNA转录本的表达。
一旦将基因表达数据归一化,就能使用用于检测样品和/或样品组间差异基因表达的标准方法来对与细胞系质量和效用有关的基因进行鉴定。实例包括t检验和它的变型、t检验的非参数替代(non-parametric alternatives)、以及ANOVA。在本文的实施例中,本发明人使用limma程序包,所述程序包完成了放缓t统计。
考虑到目前很多基因的功能是已知的,可能会把假定的影响分配给差异表达和/或DNA甲基化,例如,癌症风险增加或降低、在分化成特定细胞类型和谱系的能力方面的差异、耐药性以及用于疾病建模、药物筛选和再生疗法的综合有效性。
虽然如上所述的DNA甲基化分析和基因表达分析主要聚焦在单个基因的影响上,在一些实施方式中,谱系记分卡使用多个基因的数据组合来预测细胞系的质量和效用。对于谱系记分卡的创建,这是最关键也是生物信息学上最复杂的步骤。
目前通过平均值和标准差计算以将来自多个基因的信息聚合(aggregated),然而,通过使用统计学习方法(例如,支持向量机)、线性回归和逻辑回归、分层模型、Bayesian算法等,聚合的影响可以减少。将候选基因或基因组区域的基因表达和/或DNA甲基化的多种测量纳入考量以生成描述多能细胞质量和效用方面的数值或分类值(categoricalvalue)的任何数学函数可以被认为是预测子(predictor)和本文所公开的记分卡的元件。
重要的是,这些数学函数在多数情况下将把在先的生物学知识考虑在内。尤其是,本发明人从文献、公共数据库以及功能基因组数据中精选出了相当数量的基因集以为这些预测子提供信息。在记分卡的一个实施方式中,可使用来自多能细胞或其分化后代的DNA甲基化和/或基因表达数据来为各个基因和基因组区域分配差异甲基化/表达分数,随后利用所得的t分数来对基因集进行(参数的或者非参数的)基因集富集分析,所述基因集代表3胚层及其它感兴趣的细胞类型、细胞途径和网络,或者代表其它在功能上或在其它方面确定的基因集。
虽然在本文的实施例中应用了如上所述的生物信息学方法,所述方法还能直接应用于多能细胞的DNA甲基化、基因表达及其它表观遗传和功能基因组数据上;并且,还能够诱导多能细胞系分化,以使得它们某些方面的质量和效用变得更明显。这可以使用大范围的扰动(perturbations)来进行,从简单的生长因子撤出和对大量化学品、肽和蛋白处理的物理操作(如在本文中用于不定向拟胚体分化)(通常以组合方式进行)到专用表面上的涂层和特定基因的诱导表达。
可以使用各种方法分析基因表达数据,例如,如以下文章和著作所公开的方法:Harr等,Nucleic acid research,2006;34(2):e8,“Comparison of algorithms for theanalysis of Affymetrix microarray data as evaluated by co-expression of genesin known operons”;以及由Phillip Stafford所著的名为“Methods in microarraynormalization”的书,Drug Discovery Series/10,CRC出版社出版(以引用的方式将其内容全部并入本文)。cgRMA算法(GC[GC含量]鲁棒多芯片分析(robust multichip analysis,RMA))既使用RMA算法的分位数归一化(quantile normalization)又使用RMA算法的中位数平滑总结法(medium polish summarization methods)。将随机模型(stochastic models)用于对阵列上各探针对观测到的PM和MM探针信号进行描述。具体而言,所述模型为:
PMμi=Oni+Nlni+Sni
NMni=Oni+N2ni
其中,0ni表示光噪声,N1和N2表示非特异性结合,Snj为样品中对RNA表达的数量比例(quantity proportion to the RNA expression)。另外,所述模型假定O遵循正态分布N(μ0,σ2 0)、log2(Nlni)和log2(N2ni)遵循方差齐(equal variances)为σ2 N且相关性为0.7的双变量正态分布(bivariate-normal distribution),在探针对中恒定。非特异性结合项的分布方式取决于探针序列。假定光噪声和非特异性结合项是独立的。
所述方法(gcRNA通过该方法包含了关于探针测序的信息)基于位置依赖性的碱基亲和力之和,从而对亲和力进行比较。具体而言,探针亲和力由下式给出:
A = &Sigma; k = 1 25 &Sigma; b &Element; ( A , C , G , T ) &mu; b ( k ) 1 &beta; k = j
其中,μb(k)被建模为具有5个自由度的样条函数(spline function)。在实践中,使用实验中所有芯片的观测数据或以来自gcRMA创造者进行的特异性NSB实验中的一些硬编码评价(hard-coded estimates)为基础来对单个微阵列(例如,U113A微阵列芯片)的μb(k)进行评价。用于gcRMA模型中的N1和N2随机变量的这一方式通过使用探针亲和力的光滑函数h来建模。
以如下方式对光噪声μo,σ2 o进行评价:由光噪声引起的变异性比由非特异性结合引起的变异性小得多,因此有效地保持恒定。为简单起见,其被设置为0。使用阵列上最低的PM或MM探针强度估算出平均值,并以相关因子(correlation factor)来避免负值(negatives)。随后,通过减去这个常数μo将所有探针强度关联在一起。为了评价h(Ani),将loess曲线拟合成关于校正log(MM)强度对所有MM探针亲和力的散点图。将来自loess图的负残差(negative residuals)用于评价σ2 N。最后,用于gcRMA的背景调整过程是根据观测到的PM、MM和模型参数来计算S的预期值。注意,虽然gcRMA使用RMA的中位数平滑总结,如果想进行质量评价的话,就不应该将PLM总结法用在这个地方,尽管以这种方式生成的表达评价从其它方面来说是令人满意的。
在一些实施方式中,还可以使用其它基因表达归一化方法,例如,使用MAS5.0算法(Microarray suite 5.0)、RMA算法(鲁棒多芯片分析),在由Phillip Stafford所著的“method for microarray normalization”中对所述方法进行了详细解释。
统计方法
以下来论述统计聚类方法和用于统计聚类的软件。例如,定量基因差异表达中所用的一个参数为倍数变化,其为比较2种不同实验条件下基因的mRNA表达水平的度量标准(metric)。它的算法定义在研究人员之间不同。然而,倍数改变越大,将越有可能充分分离相关基因的差异表达,使得更容易确定患者所属的类别。
上调基因的倍数变化可能为,例如,至少1.4log-2变化、至少1.5log-2变化、至少1.6log-2变化、至少1.7log-2变化、至少1.8log-2变化、至少1.9log-2变化、或至少2.0或以上的log-2变化。在一个实施方式中,使用PCR测量表达水平,所述倍数变化为至少2.0。
下调基因的倍数变化可为0.6或小于0.6log-2变化,例如,其可为0.5或小于0.5log-2变化、0.4或小于0.4log-2变化、0.3或小于0.3log-2变化、0.2或小于0.2log-2变化,或可能为0.1或小于0.1的log-2变化。因此,0.1的倍数变化表明基因表达下调了10倍。2.0的倍数变化表明基因的表达上调了2倍。
例如:如果多能干细胞中基因表达目标基因的倍数变化为=2.0(相比于该基因基因表达的正常变异),这表明所述基因为“离群”基因。类似地,如果多能干细胞系中基因表达目标基因的倍数变化为=0.5的基因的=0.5(相比于该基因基因表达的正常变异),这表明所述基因为离群基因。测试多能干细胞系中基因表达基因为离群基因的数量越高,表明所述多能干细胞系可能具有不需要的特征,例如,质量和/或不适用于特定效用。例如,如果测试多能干细胞具有至少约50种、或至少约100种、或多于100种离群基因表达基因,所述多能干细胞系被鉴定为离群多能干细胞系,并且相比标准多能干细胞系而言具有不同的、可能不需要的特征,例如,它可能质量差(例如,转化成癌细胞谱系的倾向高)和/或沿特定谱系分化的效率低。
用于定量差异表达的另一参数为“p”值。认为p值越低,基因越有可能差异表达,这表明相比于多能干细胞中基因表达的正常变异,所述基因为离群基因。例如,P值例如可包括0.1或更小、如0.05或更小、尤其是0.01或更小。本文所用的P值包括校正的“P”值和/或未校正的“P”值。
以下任何编号段落可对本发明进行限定:
1.用于对多能干细胞系进行选择的方法,所述方法包括:
a.对所述多能干细胞系中目标基因集的DNA甲基化进行测量,并进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化数据的比较;
b.通过所述多能干细胞的不定向分化或定向进化对所述多能干细胞系的分化潜能进行测量,通过对多种谱系标志物基因的基因表达和/或DNA甲基化进行测量来进行所述测量;并进行基因表达差异和/或DNA甲基化差异与相同谱系标志物基因的参比基因表达差异和/或DNA甲基化差异的比较;
c.选择如下多能干细胞系:相比参比DNA甲基化水平而言在所述目标基因的DNA甲基化上无统计学显著量差异的多能干细胞系,以及相比参比分化潜能而言在沿中胚层谱系、外胚层谱系和内胚层谱系分化的倾向上无统计学显著量差异的多能干细胞系;或者舍弃如下多能干细胞系:相比参比DNA甲基化水平而言在所述目标基因的DNA甲基化上有统计学显著量差异的多能干细胞系,以及相比参比分化潜能而言在沿中胚层谱系、外胚层谱系和内胚层谱系分化的倾向上有统计学显著量差异的多能干细胞系。
2.如段1所述的方法,其中,所述DNA甲基化通过将至少1个多能干细胞与试剂接触来进行测量,所述试剂差异结合所述DNA中的表观遗传修饰。
3.如段2所述的方法,其中,所述DNA甲基化通过将至少1个多能干细胞与试剂接触来进行测量,所述试剂差异结合至甲基化DNA和非甲基化DNA,然后进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化数据的比较。
4.如段2所述的方法,其中,所述DNA甲基化通过选自于下列方法所组成的组中的任一种来进行测量:基于富集的方法(例如,MeDIP、MBD-seq和MethylCap)、基于亚硫酸氢盐测序和亚硫酸氢盐的方法(例如,RRBS、亚硫酸氢盐测序、Infinium、GoldenGate、COBRA、MSP和MethyLight)、以及限制性消化的方法(例如,MRE-seq);或者通过相比于相同目标基因的参比DNA甲基化数据而言,所述多能干细胞的DNA甲基化目标基因的差异转化、差异限制性、差异权重来进行测量。
5.如段1-4中任一项所述的方法,所述方法进一步包括:
(a)对所述多能干细胞系中第二目标基因集的基因表达进行测量,并进行所述基因表达数据与相同目标基因的参比基因表达水平的比较;以及
(b)选择如下多能干细胞系:相比所述参比基因表达水平而言在所述目标基因的基因表达水平上无统计学显著量差异的多能干细胞系;或者舍弃如下多能干细胞系:相比所述参比基因表达水平而言在所述目标基因的基因表达水平上有统计学显著量差异的多能干细胞系。
6.如段1-5中任一项所述的方法,其中,所述参比DNA甲基化水平为所述DNA甲基化目标基因的正常甲基化变异范围。
7.如段1-6中任一项所述的方法,其中,所述参比DNA甲基化水平为所述DNA甲基化目标基因的DNA甲基化的平均值并任选加上或减去DNA甲基化的标准差,其中,所述平均值由多种多能干细胞系中所述目标基因的DNA甲基化计算得出。
8.如段7所述的方法,其中,所述多种多能干细胞系为至少5种以上多能干细胞系。
9.如段1-8中任一项所述的方法,其中,所述多能细胞系的DNA甲基化和/或所述参比DNA甲基化通过亚硫酸氢盐分析进行测定。
10.如段1-9中任一项所述的方法,其中,所述多能细胞系的DNA甲基化和/或所述参比DNA甲基化通过全基因组亚硫酸氢盐分析进行测定。
11.如段1-10中任一项所述的方法,其中,所述多能细胞系的DNA甲基化和/或所述参比DNA甲基化通过简化表观亚硫酸氢盐测序(RBBS)分析进行测定。
12.如段5所述的方法,其中,所述参比基因表达水平为所述目标基因的正常变异范围。
13.如段5-12中任一项所述的方法,其中,所述参比基因表达水平为所述目标基因表达水平的平均值,其中,所述平均值由多种多能干细胞系中的所述目标基因的表达水平计算得出。
14.如段13所述的方法,其中,所述多种多能干细胞系为至少5种以上不同的多能干细胞系。
15.如段5-14中任一项所述的方法,其中,所述多能细胞系的基因表达和/或所述参比基因表达通过微阵列分析进行测定。
16.如段1-15中任一项所述的方法,其中,所述多能细胞系的分化潜能通过定量分化分析进行测定。
17.如段1-16中任一项所述的方法,其中,所述参比分化潜能为分化成选自于由如下谱系所组成的组中的谱系的能力:中胚层谱系、内胚层谱系、外胚层谱系、神经元谱系、造血谱系,以及它们的任意组合。
18.如段1-17中任一项所述的方法,其中,所述参比分化潜能数据由多种多能干细胞系产生。
19.如段18所述的方法,其中,所述多种多能干细胞系为至少5种不同的多能干细胞系。
20.如段1-19中任一项所述的方法,其中,所述多能细胞系的DNA甲基化目标基因和/或所述参比DNA甲基化目标基因选自于由如下基因所组成的组:癌基因、致癌基因、肿瘤抑制基因、发育基因、谱系标志物基因,以及它们的任意组合。
21.如段1-19中任一项所述的方法,其中,所述多能细胞系的DNA甲基化目标基因和/或所述参比DNA甲基化目标基因选自于表12A或表13A或表14中所列出的组,以及它们的任意组合。
22.如段20所述的方法,其中,所述致癌基因选自于如下基因:c-Sis、表皮生长因子受体、血小板衍生生长因子受体、血管内皮生长因子受体、HER2/new、酪氨酸激酶的Src家族、酪氨酸激酶的Syk-Zap-70家族、酪氨酸激酶的BTK家族、Raf激酶、细胞周期蛋白依赖性激酶、Ras蛋白以及myc基因。
23.如段20所述的方法,其中,所述肿瘤抑制基因选自于如下基因:TP53、PTEN、APC、CD95、ST5、ST7和ST14基因。
24.如段20所述的方法,其中,所述发育基因选自于表7或表13A或表14所列出的基因的任意组合。
25.如段20所述的方法,其中,所述谱系标志物基因选自如下基因:VEGF受体II(KDR)、肌动蛋白α-2平滑肌(ACTA2)、巢蛋白、微管蛋白β3、α-feto蛋白(AFP)、syndecan-4、CD64IFcyRI、Oct-4、β-HCG、β-LH、oct-3、Brachyury T、Fgf-5、nodal、GATA-4、flk-1、Nkx-2.5、EKLF以及Msx3。
26.如段1-26中任一项所述的方法,其中,所述多能细胞系的DNA甲基化目标基因和/或所述参比DNA甲基化目标基因选自于由如下基因所组成的组:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1、TF,以及它们的任意组合。
27.如段1-25中任一项所述的方法,其中,所述统计差异为与所述参比水平相比至少1标准差、至少2标准差或至少3标准差的差异。
28.如段1-27中任一项所述的方法,其中,所述多能细胞系的基因表达目标基因和/或所述参比基因表达目标基因选自于表12B或表13A或表14所列出的组,以及它们的任意组合。
29.如段1-28中任一项所述的方法,其中,在所述多能细胞系中对至少约200个目标基因的DNA甲基化进行测量,然后与相同的至少200个目标基因集的参比DNA甲基化水平进行比较,所述至少约200个目标基因选自于表12A或表13A或表14所列出的基因的任意组合。
30.如段1-29中任一项所述的方法,其中,进行所述DNA甲基化测量的选自于表12A或表13A或表14所列出的基因的任意组合的所述至少约200个目标基因选自于表12A所列出的1-500号基因或表13A或表14所列出的基因的任意组合。
31.如段1-30中任一项所述的方法,其中,进行所述DNA甲基化测量的所述至少约200个目标基因选自于表12A所列出的1-200号基因或选自于表13A或表14。
32.如段1-31中任一项所述的方法,其中,在所述多能细胞系中对至少约500个目标基因的DNA甲基化进行测量,然后与相同的至少500个目标基因集的参比DNA甲基化水平进行比较,所述至少约500个目标基因选自于表12A或表13A或表14所列出的基因的任意组合。
33.如段1-32中任一项所述的方法,其中,进行所述DNA甲基化测量的选自于表12A或表13A或表14所列出的基因的任意组合的所述至少约500个目标基因选自于表12A所列出的1-1000号基因或表13A或表14所列出的基因的任意组合。
34.如段1-33中任一项所述的方法,其中,进行所述DNA甲基化测量的所述至少约500个目标基因选自于表12A所列出的1-500号基因或选自于表13A或表14。
35.如段1-29中任一项所述的方法,其中,在所述多能细胞系中对至少约1000个目标基因的DNA甲基化进行测量,然后与相同的至少1000个目标基因集的参比DNA甲基化水平进行比较,所述至少约1000个目标基因选自于表12A或表13A或表14所列出的基因的任意组合。
36.如段1-35中任一项所述的方法,其中,进行所述DNA甲基化测量的所述至少约1000个目标基因选自于表12A所列出的1-2000号基因或选自于表13A或表14。
37.如段1-36中任一项所述的方法,其中,在所述多能细胞系中对至少约200个目标基因的基因表达进行测量,然后与相同的至少200个目标基因集的参比基因表达水平进行比较,所述至少约200个目标基因选自于表12B或表13A或表14所列出的基因的任意组合。
38.如段1-37中任一项所述的方法,其中,进行所述基因表达测量的所述至少约200个目标基因选自于表12B所列出的1-500号基因或选自于表13A或表14。
39.如段1-38中任一项所述的方法,其中,在所述多能细胞系中对至少约500个目标基因的基因表达进行测量,然后与相同的至少500个目标基因集的参比基因表达水平进行比较,所述至少约500个目标基因选自于表12B或表13A或表14所列出的基因的任意组合。
40.如段1-39中任一项所述的方法,其中,进行所述基因表达测量的所述至少约500个目标基因选自于表12B所列出的1-1000号基因或选自于表13A或表14。
41.如段1-40中任一项所述的方法,其中,在所述多能细胞系中对至少约1000个目标基因的基因表达进行测量,然后与相同的至少1000个目标基因集的参比基因表达水平进行比较,所述至少约1000个目标基因选自于表12B或表13A或表14所列出的基因的任意组合。
42.如段1-41中任一项所述的方法,其中,进行所述基因表达测量的所述至少约1000个目标基因选自于表12B所列出的1-2000号基因或选自于表13A或表14。
43.如段1-42中任一项所述的方法,其中,相对于所述参比基因,所述多能干细胞系中在甲基化上具有统计显著差异的DNA甲基化基因数为10、9、8、7、6、5、4、3、2、1、或0。
44.如段1-43中任一项所述的方法,其中,相对于所述参比基因,所述多能干细胞系中在基因表达水平上具有统计显著差异的基因数为10、9、8、7、6、5、4、3、2、1、或0。
45.如段1-44中任一项所述的方法,其中,所述多能干细胞为哺乳动物多能干细胞。
46.如段1-45中任一项所述的方法,其中,所述多能干细胞为人多能干细胞。
47.多能干细胞在对化合物的生物活性进行筛选中的用途,其中,所述多能干细胞通过段1-46中任一项所述的方法而选择。
48.如段47所述的用途,其中,所述筛选包括如下步骤:
(i)任选地,导致或者容许所述多能干细胞沿特定谱系分化;
(ii)将所述细胞与测试化合物进行接触;以及
(iii)测定所述化合物对所述细胞的任何影响。
49.如段47-48中任一项所述的用途,其中,所述测试化合物选自于由如下物质所组成的组:有机小分子、无机小分子、多糖、肽、蛋白、核酸、由生物材料(如细菌、植物、真菌、动物细胞、动物组织)制得的提取物,以及它们的任意组合。
50.如段47-49中任一项所述的用途,其中,所述测试化合物在约0.01nM-约1000mM的浓度范围内进行测试。
51.如段47-50中任一项所述的用途,其中,所述方法为高通量筛选方法。
52.如段47-51中任一项所述的用途,其中,所述生物活性为在生物分析中引发刺激、抑制、调节、毒性或致死响应。
53.如段47-52中任一项所述的用途,其中,所述生物活性选自于由如下生物活性所组成的组:调节酶活性、使受体失活、刺激受体、调节一种或多种基因的表达水平、调节细胞增殖、调节细胞分裂、调节细胞形态,以及它们的任意组合。
54.如段47-53中任一项所述的用途,其中,所述特定谱系为疾病的基因型或表型。
55.如段47-54中任一项所述的用途,其中,所述特定谱系为器官、组织或其部分的基因型或表型。
56.多能干细胞在通过向受试者给予多能干细胞以治疗受试者中的用途,其中,所述多能干细胞通过段1-46中任一项所述的方法进行选择。
57.如段56所述的用途,其中,所述受试者为哺乳动物。
58.如段56-57中任一项所述的用途,其中,所述受试者为小鼠。
59.如段56-57中任一项所述的用途,其中,所述受试者为人。
60.如段56-59中任一项所述的用途,其中,所述受试者患有或被诊断为具有选自于由如下疾病或状况所组成的组中的疾病或状况:癌症、糖尿病、心力衰竭、肌肉损伤、乳糜泻、神经障碍、神经退行性障碍、溶酶体贮积病,以及它们的任意组合。
61.如段56-60中任一项所述的用途,其中,所述给予为局部给予。
62.如段56-61中任一项所述的用途,其中,所述给予为将所述多能干细胞移植入所述受试者。
63.如段56-62中任一项所述的用途,所述用途进一步包括在向所述受试者给予所述多能干细胞或其分化后代之前,对所述多能干细胞进行分化。
64.如段63所述的用途,其中,所述多能干细胞沿选自于由如下谱系所组成的组中的谱系进行分化:中胚层谱系、内胚层谱系、外胚层谱系、神经元谱系、造血谱系,以及它们的任意组合。
65.如段63-64中任一项所述的用途,其中,所述多能干细胞分化成如下细胞:产胰岛素细胞(胰细胞、β细胞等)、神经元细胞、肌细胞、皮肤细胞、心肌细胞、肝细胞、血细胞、适应性免疫细胞、固有免疫细胞等。
66.含有由段1-26中任一项所述的方法选择出的多能干细胞的试剂盒。
67.如段66所述的试剂盒,所述试剂盒进一步包含使用说明。
68.如段66-67中任一项所述的试剂盒,其中,所述多能干细胞用于段47-55中任一项所述的用途。
69.如段66-67中任一项所述的试剂盒,其中,所述多能干细胞用于段56-65中任一项所述的用途。
70.用于对多能细胞的多种性能进行表征的分析,所述分析包含下列分析中的至少2种:
a.DNA甲基化分析;
b.基因表达分析;以及
c.分化分析。
71.如段70所述的分析,其中,所述DNA甲基化分析为亚硫酸氢盐测序分析。
72.如段70-71中任一项所述的分析,其中,所述DNA甲基化分析为全基因组亚硫酸氢盐测序分析。
73.如段70-72中任一项所述的分析,其中,DNA甲基化分析选自于由如下方法所组成的组:基于富集的方法(例如,MeDIP、MBD-seq和MethylCap)、基于亚硫酸氢盐测序和亚硫酸氢盐的方法(例如,RRBS、亚硫酸氢盐测序、Infinium、GoldenGate、COBRA、MSP、MethyLight)以及限制性消化的方法(例如,MRE-seq)。
74.如段70-73中任一项所述的分析,其中,所述基因表达分析为微阵列分析。
75.如段70-74中任一项所述的分析,其中,所述分化分析为定量分化分析。
76.如段70-75中任一项所述的分析,其中,所述分化分析评估所述多能细胞分化成下列谱系中至少一种的能力:中胚层谱系、内胚层谱系、外胚层谱系、神经元谱系、或造血谱系。
77.如段70-76中任一项所述的分析,其中,通过使用针对中胚层谱系、内胚层谱系以及外胚层谱系的至少一种标志物的抗体而进行的免疫染色或FAC分选来测定所述多能细胞分化成下列谱系中至少一种的能力:中胚层谱系、内胚层谱系和外胚层谱系。
78.如段70-77中任一项所述的分析,其中,通过在处于EB中至少约7天后对所述多能干细胞进行免疫染色来测定所述多能细胞分化成下列谱系中至少一种的能力:中胚层谱系、内胚层谱系和外胚层谱系。
79.如段70-78中任一项所述的分析,其中,所述多能细胞沿中胚层谱系分化的能力通过VEGF受体II(KDR)或肌动蛋白α-2平滑肌(ACTA2)的阳性免疫染色进行测定。
80.如段70-79中任一项所述的分析,其中,所述多能细胞沿外胚层谱系分化的能力通过巢蛋白或微管蛋白β3的阳性免疫染色进行测定。
81.如段70-80中任一项所述的分析,其中,所述多能细胞沿内胚层谱系分化的能力通过α-feto蛋白(AFP)的阳性免疫染色进行测定。
82.如段70-81中任一项所述的分析,其中,所述分析为用于对多种不同的多能干细胞进行分析的高通量分析。
83.如段81所述的分析,其中,所述高通量分析对来自受试者的多种不同的诱导多能干细胞进行评估。
84.如段83所述的分析,其中,所述受试者为哺乳动物受试者。
85.如段83所述的分析,其中,所述受试者为人受试者。
86.如段70-85中任一项所述的分析,其中,所述DNA甲基化基因选自于由如下基因所组成的组:癌基因、致癌基因、肿瘤抑制基因、发育基因、谱系标志物基因,以及它们的任意组合。
87.如段70-86中任一项所述的分析,其中,所述DNA甲基化基因选自于由如下基因所组成的组:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1、TF,以及它们的任意组合。
88.如段70-86中任一项所述的分析,其中,所述基因表达分析对选自于表7或表13A或表14所列出的基因的任意组合中的基因的表达进行测定。
89.如段70-88中任一项所述的分析,其中,所述DNA甲基化分析对选自于表12A或表13A或表14所列出的组中的多个目标基因的任意组合的DNA甲基化水平进行测定。
90.如段70-89中任一项所述的分析,其中,所述DNA甲基化分析对表12A或表13A或表14所列出的基因中的至少200个基因的任意组合的DNA甲基化水平进行测定。
91.如段70-89中任一项所述的分析,其中,所述DNA甲基化分析对表12A所列出的1-500号基因或表13A或表14所列出的基因中的至少200个基因的任意组合的DNA甲基化水平进行测定。
92.如段70-91中任一项所述的分析,其中,所述DNA甲基化分析对表12A或表13A或表14所列出的基因中的至少500个基因的任意组合的DNA甲基化水平进行测定。
93.如段70-92中任一项所述的分析,其中,所述DNA甲基化分析对表12A所列出的1-1000号基因中的至少500个基因的任意组合的DNA甲基化水平进行测定。
94.如段70-93中任一项所述的分析,其中,所述DNA甲基化分析对表12A或表13A或表14所列出的基因中的至少1000个基因的任意组合的DNA甲基化水平进行测定。
95.如段70-92中任一项所述的分析,其中,所述DNA甲基化分析对表12A所列出的1-2000号基因或表13A或表14所列出的基因中的至少1000个基因的任意组合的DNA甲基化水平进行测定。
96.如段70-95中任一项所述的分析,其中,所述基因表达分析对选自于表12B所列出的组中的多个目标基因的任意组合的基因表达水平进行测定。
97.如段70-96中任一项所述的分析,其中,所述基因表达分析对表12B或表13A或表14所列出的基因中的至少200个基因的任意组合的基因表达水平进行测定。
98.如段70-97中任一项所述的分析,其中,所述基因表达分析对表12B所列出的1-500号基因或表13A或表14所列出的基因中的至少200个基因的任意组合的基因表达水平进行测定。
99.如段70-96中任一项所述的分析,其中,所述基因表达分析对表12B或表13A或表14所列出的基因中的至少500个基因的任意组合的基因表达水平进行测定。
100.如段70-97中任一项所述的分析,其中,所述基因表达分析对表12B所列出的1-1000号基因或表13A或表14所列出的基因中的至少500个基因的任意组合的基因表达水平进行测定。
101.如段70-96中任一项所述的分析,其中,所述基因表达分析对表12B或表13A或表14所列出的基因中的至少1000个基因的任意组合的基因表达水平进行测定。
102.如段70-97中任一项所述的分析,其中,所述基因表达分析对表12B所列出的1-2000号基因或表13A或表14所列出的基因中的至少1000个基因的任意组合的基因表达水平进行测定。
103.段70-102中任一项所述的分析在生成记分卡中的用途,所述记分卡由至少一种多能干细胞系或多种多能干细胞系而生成。
104.用于生成多能干细胞记分卡的方法,所述方法包括:
(i)对多种多能干细胞系中的第一目标基因集的DNA甲基化进行测量;
(ii)对所述多种多能干细胞系中的第二目标基因集的基因表达进行测量;以及
(iii)对所述多种多能干细胞系的分化潜能进行测量。
105.如段104所述的方法,所述方法进一步包括:
(i)对所述第一目标基因集中各目标基因的平均甲基化水平进行计算;以及
(ii)对所述第二目标基因集中各目标基因的平均基因表达水平进行计算。
106.如段104-105中任一项所述的方法,其中,所述分化潜能为分化成选自于由如下谱系所组成的组中的谱系的能力:中胚层谱系、内胚层谱系、外胚层谱系、神经元谱系、造血谱系,以及它们的任意组合。
107.如段104-106中任一项所述的方法,其中,所述多种多能干细胞系为至少5种多能干细胞系。
108.如段104-107中任一项所述的方法,其中,所述DNA甲基化通过亚硫酸氢盐测序分析进行测量。
109.如段104-108中任一项所述的方法,其中,所述DNA甲基化通过全基因组亚硫酸氢盐测序分析进行测量。
110.如段104-109中任一项所述的方法,其中,所述DNA甲基化通过选自于下列方法所组成的组中的任一种来进行测量:基于富集的方法(例如,MeDIP、MBD-seq和MethylCap)、基于亚硫酸氢盐测序和亚硫酸氢盐的方法(例如,RRBS、亚硫酸氢盐测序、Infinium、GoldenGate、COBRA、MSP和MethyLight)、以及限制性消化的方法(例如,MRE-seq)。
111.如段104-110中任一项所述的方法,其中,所述基因表达通过微阵列分析进行测量。
112.如段104-111中任一项所述的分析,其中,所述分化潜能通过定量分化分析进行测量。
113.如段104-112中任一项所述的方法,其中,通过使用针对中胚层谱系、内胚层谱系以及外胚层谱系的至少一种标志物的抗体而进行的免疫染色或FAC分选来测定所述多能细胞分化成下列谱系中至少一种的能力:中胚层谱系、内胚层谱系和外胚层谱系。
114.如段104-113中任一项所述的方法,其中,通过在处于EB中至少约7天后对所述多能干细胞进行免疫染色来测定所述多能细胞分化成下列谱系中至少一种的能力:中胚层谱系、内胚层谱系和外胚层谱系。
115.如段104-114中任一项所述的方法,其中,所述多能细胞沿中胚层谱系分化的能力通过VEGF受体II(KDR)或肌动蛋白α-2平滑肌(ACTA2)的阳性免疫染色进行测定。
116.如段104-115中任一项所述的方法,其中,所述多能细胞沿外胚层谱系分化的能力通过巢蛋白或微管蛋白β3的阳性免疫染色进行测定。
117.如段104-116中任一项所述的方法,其中,所述多能细胞沿内胚层谱系分化的能力通过α-feto蛋白(AFP)的阳性免疫染色进行测定。
118.如段104-117中任一项所述的方法,其中,所述第一基因集选自于由如下基因所组成的组:癌基因、致癌基因、肿瘤抑制基因、发育基因、谱系标志物基因,以及它们的任意组合。
119.如段104-118中任一项所述的方法,其中,所述第一基因集包含选自于由如下基因所组成的组中的至少一种基因:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1、TF,以及它们的任意组合。
120.如段104-119中任一项所述的方法,其中,所述DNA甲基化的第一基因集包含选自于表12A或表13A或表14所列出的组中的多个目标基因的任意组合。
121.如段104-120中任一项所述的方法,其中,所述DNA甲基化的第一基因集包含表12A或表13A或表14所列出的基因中的至少200个基因的任意组合。
122.如段104-121中任一项所述的方法,其中,所述DNA甲基化的第一基因集包含表12A所列出的1-500号基因或表13A或表14所列出的基因中的至少200个基因的任意组合。
123.如段104-122中任一项所述的方法,其中,所述DNA甲基化的第一基因集包含表12A或表13A或表14所列出的基因中的至少500个基因的任意组合。
124.如段104-123中任一项所述的方法,其中,所述DNA甲基化的第一基因集包含表12A所列出的1-1000号基因或表13A或表14所列出的基因中的至少500个基因的任意组合。
125.如段104-124中任一项所述的方法,其中,所述DNA甲基化的第一基因集包含表12A或表13A或表14所列出的基因中的至少1000个基因的任意组合。
126.如段104-125中任一项所述的方法,其中,所述DNA甲基化的第一基因集包含表12A所列出的1-2000号基因或表13A或表14所列出的基因中的至少1000个基因的任意组合。
127.如段104-126中任一项所述的方法,其中,所述基因表达的第二基因集包含表12B或表13A或表14所列出的组中的多个目标基因的任意组合。
128.如段104-127中任一项所述的方法,其中,所述基因表达的第二基因集包含表12B或表13A或表14所列出的基因中的至少200个基因的任意组合。
129.如段104-128中任一项所述的方法,其中,所述基因表达的第二基因集包含表12B所列出的1-500号基因或表13A或表14所列出的基因中的至少200个基因的任意组合。
130.如段104-129中任一项所述的方法,其中,所述基因表达的第二基因集包含表12B或表13A或表14所列出的基因中的至少500个基因的任意组合。
131.如段104-130中任一项所述的方法,其中,所述基因表达的第二基因集包含表12B所列出的1-1000号基因或表13A或表14所列出的基因中的至少500个基因的任意组合。
132.如段104-131中任一项所述的方法,其中,所述基因表达的第二基因集包含表12B所列出的基因中的至少1000个基因的任意组合。
133.如段104-132中任一项所述的方法,其中,所述基因表达的第二基因集包含表12B所列出的1-2000号基因或表13A或表14所列出的基因中的至少1000个基因的任意组合。
134.多能干细胞性能参数的记分卡,所述记分卡包含:
(i)第一数据集,包含来自多种多能干细胞系的多个DNA甲基化目标基因的DNA甲基化水平;
(ii)第二数据集,包含来自多种多能干细胞系的多个基因表达目标基因的基因表达水平;以及
(iii)第三数据集,包含来自多种多能干细胞系的向外胚层谱系、中胚层谱系和内胚层谱系分化的分化倾向水平。
135.如段134所述的记分卡,其中,所述多个参比DNA甲基化基因为至少约500个参比DNA甲基化基因、至少约1000个参比DNA甲基化基因、至少约1500个参比DNA甲基化基因、或至少约200个参比DNA甲基化基因。
136.如段134或135所述的记分卡,其中,所述多个参比DNA甲基化基因选自于表12A或表13A或表14所列出的基因的任意组合。
137.如段134或136所述的记分卡,其中,所述多个参比DNA甲基化基因选自于表12A或表13A或表14所列出的基因的任意组合。
138.如段134-137中任一项所述的记分卡,所述多个参比DNA甲基化基因选自于表12A或表13A或表14所列出的基因中的至少200个基因的任意组合。
139.如段134-138中任一项所述的记分卡,所述多个参比DNA甲基化基因选自于表12A所列出的1-500号基因或表13A或表14所列出的基因中的至少200个基因的任意组合。
140.如段134-139中任一项所述的记分卡,所述多个参比DNA甲基化基因选自于表12A或表13A或表14所列出的基因中的至少500个基因的任意组合。
141.如段134-140中任一项所述的记分卡,所述多个参比DNA甲基化基因选自于表12A所列出的1-1000号基因或表13A或表14所列出的基因中的至少500个基因的任意组合。
142.如段134-141中任一项所述的记分卡,所述多个参比DNA甲基化基因选自于表12A或表13A或表14所列出的基因中的至少1000个基因的任意组合。
143.如段134-142中任一项所述的记分卡,所述多个参比DNA甲基化基因选自于表12A所列出的1-2000号基因或表13A或表14所列出的基因中的至少1000个基因的任意组合。
144.如段134-143中任一项所述的记分卡,其中,所述多个参比DNA甲基化基因为全基因组的DNA甲基化状态。
145.如段134-144中任一项所述的记分卡,其中,所述多个参比DNA甲基化基因包含如下基因:癌基因、致癌基因、肿瘤抑制基因、发育基因和谱系标志物基因。
146.如段134-145中任一项所述的记分卡,其中,所述多个参比DNA甲基化基因包含选自于由如下基因所组成的组中的至少一种基因:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1、TF,以及它们的任意组合。
147.如段134-146中任一项所述的记分卡,其中,至少所述第一数据集和/或所述第二数据集与数据存储设备相连接。
148.如段134-147中任一项所述的记分卡,其中,至少所述第一数据集和/或所述第二数据集与数据存储设备相连接,所述数据存储设备为位于计算机设备上的数据库。
149.如段134-148中任一项所述的记分卡,其中,所述多种干细胞系为至少5种、至少10种、至少15种、或至少20种多能干细胞系。
150.如段134-149中任一项所述的记分卡,其中,所述多种干细胞系包含选自于由如下多能干细胞系所组成的组中的至少一种多能干细胞系:HUES64、HUES3、HUES8、HUES53、HUES28、HUES49、HUES9、HUES48、HUES45、HUES1、HUES44、HUES6、H1、HUES62、HUES65、H7、HUES13、HUES63、HUES66,以及它们的任意组合。
151.如段134-140中任一项所述的记分卡,其中,所述多种干细胞系包含独立地选自于由如下多能干细胞系所组成的组中的至少5种多能干细胞系:HUES64、HUES3、HUES8、HUES53、HUES28、HUES49、HUES9、HUES48、HUES45、HUES1、HUES44、HUES6、H1、HUES62、HUES65、H7、HUES13、HUES63和HUES66。
152.如段134-151中任一项所述的记分卡,其中,所述多种多能干细胞系包含至少一种哺乳动物多能干细胞系。
153.如段134-152中任一项所述的记分卡,其中,所述多种多能干细胞系的所有多能干细胞系均为哺乳动物多能干细胞系。
154.如段134-153中任一项所述的记分卡,其中,所述多种多能干细胞系至少包含人多能干细胞系。
155.如段134-154中任一项所述的记分卡,其中,所述多种多能干细胞系的所有多能干细胞系均为人多能干细胞系。
156.如段134-155中任一项所述的记分卡,其中,所述多能干细胞为哺乳动物多能干细胞。
157.如段134-156中任一项所述的记分卡,其中,所述多能干细胞为人多能干细胞。
158.如段134-157中任一项所述的记分卡,其中,所述多能干细胞系为诱导多能干(iPS)细胞。
159.如段134-158中任一项所述的记分卡,其中,所述多能干细胞为胚胎干细胞。
160.如段134-159中任一项所述的记分卡,其中,所述多能干细胞为成体干细胞。
161.如段134-160中任一项所述的记分卡,其中,所述多能干细胞为自体干细胞。
162.含有段134-161中任一项所述的记分卡的试剂盒。
163.如段162所述的试剂盒,所述试剂盒进一步包含使用说明。
164.段134-161中任一项所述的记分卡在区分诱导多能干细胞与胚胎干细胞系中的用途。
165.用于实现段1-46中任一项所述的方法的试剂盒,其中,所述试剂盒包含:
(iii)用于对DNA甲基化状态进行测量的试剂;以及
(iv)用于对多能干细胞的分化倾向进行测量的试剂。
166.如段165所述的试剂盒,所述试剂盒进一步包含对目标基因表达基因的基因表达水平进行测量的试剂。
167.如段165-166中任一项所述的试剂盒,所述试剂盒进一步包含使用说明。
168.如段165-166中任一项所述的试剂盒,所述试剂盒进一步包含段134-161中任一项所述的记分卡。
169.用于生成多能干细胞的质量保证记分卡的计算机系统,所述计算机系统包含:
(c)至少一个存储器,所述存储器含有包含如下步骤的至少一个程序:
(i)接收多能干细胞系中DNA甲基化目标基因集的DNA甲基化数据,并进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化水平的比较;
(ii)接收所述多能干细胞系的分化潜能数据,并进行所述分化潜能数据与参比分化潜能数据的比较;
(iii)基于所述DNA甲基化数据与参比DNA甲基化参数的比较、以及分化倾向与参比分化数据的比较,生成质量保证记分卡,以及(d)运行所述程序的处理器。
170.如段169所述的系统,其中,所述程序进一步包含如下步骤:
(i)接收多能干细胞系中第二目标基因集的基因表达数据,并进行所述表达数据与相同第二目标基因集的参比基因表达水平的比较;以及
(ii)基于所述DNA甲基化数据与参比DNA甲基化参数的比较、以及所述分化倾向与参比分化数据的比较、以及所述基因表达数据与参比基因表达水平的比较,生成质量保证记分卡。
171.如段169-170中任一项所述的系统,其中,所述DNA甲基化目标基因具有可变甲基化。
172.如段169-171中任一项所述的系统,其中,所述DNA甲基化目标基因选自于如下基因:癌基因、致癌基因、肿瘤抑制基因、发育基因、谱系标志物基因,以及它们的任意组合。
173.如段169-172中任一项所述的系统,其中,所述DNA甲基化目标基因选自于由如下基因所组成的组:BMP4、CAT、CD14、CXCL5、DAZL、DNMT3B、GATA6、GAPDH、LEFTY2、MEG3、PAX6、S100A6、SOX2、SNAI1、TF,以及它们的任意组合。
174.如段169-173中任一项所述的系统,其中,所述参比DNA甲基化水平为致癌基因表观遗传沉默的高水平甲基化、以及肿瘤抑制基因和发育基因活跃转录的低水平甲基化。
175.如段167-174中任一项所述的系统,其中,所述DNA甲基化目标基因选自于表12A所列出的基因的任意组合。
176.如段167-175中任一项所述的系统,其中,所述DNA甲基化目标基因选自于表12A所列出的基因中的至少200个基因。
177.如段167-176中任一项所述的系统,其中,所述DNA甲基化目标基因选自于表12A所列出的1-500号基因或表13A或表14所列出的基因中的至少200个基因的任意组合。
178.如段167-177中任一项所述的系统,其中,所述DNA甲基化目标基因选自于表12A所列出的基因中的至少500个基因。
179.如段167-178中任一项所述的系统,其中,所述DNA甲基化目标基因选自于表12A所列出的1-1000号基因或表13A或表14所列出的基因中的至少500个基因的任意组合。
180.如段167-179中任一项所述的系统,其中,所述DNA甲基化目标基因选自于表12A所列出的基因中的至少1000个基因。
181.如段167-180中任一项所述的系统,其中,所述DNA甲基化目标基因选自于表12A所列出的1-3000号基因或表13A或表14所列出的基因中的至少1000个基因的任意组合。
182.如段167-181中任一项所述的系统,所述系统进一步包含报告生成模块,所述报告生成模块基于所述多能干细胞系的质量生成干细胞记分卡报告。
183.如段167-182中任一项所述的系统,其中,所述存储器进一步包含数据库。
184.如段167-183中任一项所述的系统,其中,所述数据库以分层方式排列所述DNA甲基化基因集。
185.如段167-184中任一项所述的系统,其中,所述数据库以分层方式排列分化成不同谱系的倾向。
186.如段167-185中任一项所述的系统,其中,所述数据库以分层方式排列所述基因表达水平数据集。
187.如段167-186中任一项所述的系统,其中,所述存储器经由网络与第一计算机相连。
188.如段187所述的系统,其中,所述网络包括广域网。
189.如段167-188中任一项所述的系统,其中,所述记分卡提供了对所述多能干细胞适合的用途或应用的指示。
190.如段167-189中任一项所述的系统,其中,所述参比DNA甲基化水平为所述DNA甲基化目标基因的甲基化的正常变异范围。
191.如段167-190中任一项所述的系统,其中,所述参比DNA甲基化水平为所述DNA甲基化目标基因的DNA甲基化的平均值,其中,所述平均值由多种多能干细胞系中所述目标基因的DNA甲基化计算得出。
192.如段167-191中任一项所述的系统,其中,所述多能细胞系的分化潜能通过定量分化分析进行测定。
193.如段167-192中任一项所述的系统,其中,所述参比分化潜能为分化成选自于由如下谱系所组成的组中的谱系的能力:中胚层谱系、内胚层谱系、外胚层谱系、神经元谱系、造血谱系,以及它们的任意组合。
194.如段167-193中任一项所述的系统,其中,所述参比基因表达水平为所述基因表达目标基因的基因表达的正常变异范围。
195.如段111-128中任一项所述的方法,其中,所述参比基因表达水平为所述目标基因的基因表达水平的平均值,其中,所述平均值由多种多能干细胞系中的所述目标基因的表达水平计算得出。
196.如段167-194中任一项所述的系统,其中,所述参比DNA甲基化、分化潜能数据以及基因表达水平数据由多种多能干细胞系生成。
197.如段196所述的系统,其中,所述多种多能干细胞系为至少5种、至少10种、至少15种、或至少20种多能干细胞系。
198.如段167-197中任一项所述的系统,其中,所述DNA甲基化目标基因包含至少一种以上所述基因表达目标基因。
199.如段167-198中任一项所述的系统,其中,所述基因表达目标基因包含至少一种以上所述DNA甲基化目标基因。
200.用于生成多能干细胞系的质量保证记分卡的含有指令的计算机可读介质,所述指令包含:
(i)接收所述多能干细胞系中DNA甲基化目标基因集的DNA甲基化数据,并进行所述DNA甲基化数据与相同目标基因的参比DNA甲基化水平的比较;
(ii)接收所述多能干细胞系的分化潜能数据,并进行所述分化潜能数据与参比分化潜能数据的比较;以及
(iii)基于所述DNA甲基化数据与参比DNA甲基化参数的比较、以及分化倾向与参比分化数据的比较,生成质量保证记分卡。
201.如段200所述的计算机可读介质,其中,所述计算机可读介质进一步包含如下指令:
(a)接收所述多能干细胞系中第二目标基因集的基因表达数据,并进行所述表达数据与相同第二目标基因集的参比基因表达水平的比较;以及
(b)基于所述DNA甲基化数据与参比DNA甲基化参数的比较、所述分化倾向与参比分化数据的比较、以及所述基因表达数据与参比基因表达水平的比较,生成质量保证记分卡。
202.用于对多能干细胞系的质量进行测定的试剂盒,所述试剂盒包含如下试剂中的至少两类试剂:
(a)用于对多个DNA甲基化基因的甲基化状态进行测量的试剂;
(b)用于对多个基因的基因表达水平进行测量的试剂;以及
(c)用于对所述多能干细胞向外胚层谱系、中胚层谱系和内胚层谱系分化的倾向进行测量的试剂。
203.如段202所述的试剂盒,所述试剂盒进一步包含使用说明。
204.如段202-203中任一项所述的试剂盒,所述试剂盒进一步包含至少一种多能干细胞系。
205.如段202-204中任一项所述的试剂盒,所述试剂盒进一步包含段134-161中任一项所述的记分卡。
206.用于生产记分卡以对感兴趣的干细胞系的多能性进行鉴定的方法,所述方法包括:
a.提供计算机,所述计算机具有相关存储器和用于执行一个或多个程序的处理器,所述计算机适于进行一个或多个以下事件:
(i)在至少一种感兴趣的多能干细胞系中,获得DNA甲基化目标基因集的DNA甲基化数据,并获得基因表达基因集的基因表达数据;以及
(ii)在至少一种参比多能干细胞系中,获得DNA甲基化目标基因集的DNA甲基化数据,并获得基因表达基因集的基因表达数据;
(iii)对在事件(i)和事件(ii)中获得的所述基因表达数据进行数据归一化;
(iv)对在事件(i)和事件(ii)中获得的所述DNA甲基化数据和所述基因表达数据进行基因定位;
(v)将在事件(i)和事件(iii)中获得的来自所述感兴趣的多能干细胞系的所述DNA甲基化数据和所述归一化的基因表达数据与在事件(ii)和事件(iii)中获得的来自所述参比多能干细胞系的所述归一化的DNA甲基化数据和所述归一化的基因表达数据进行比较,并对所述多能干细胞系中具有如下DNA甲基化水平或归一化的基因表达水平的基因进行鉴定:所述DNA甲基化水平或归一化的基因表达水平以统计学显著量超出所述参比多能干细胞系的DNA甲基化水平的正常范围或基因表达水平的正常范围;
(vi)给在事件(v)中鉴定出的基因施加相关性过滤,以鉴定出具有如下特征的基因:相比于所述参比多能干细胞系的所述参比DNA甲基化水平或基因表达水平,所述基因具有大于15%的DNA甲基化差异、或具有大于1.5倍的基因表达变化;
(vii)获得DNA甲基化目标基因和基因表达目标基因以及谱系标志物的基因集,
以及
b.生成多能记分卡报告,所述多能记分卡报告包含事件(vi)中鉴定出的基因的数量和/或数量百分比,相比于所述至少一种参比多能干细胞系,所述基因在所述感兴趣的多能干细胞系中具有DNA甲基化偏离和/基因表达偏离。
207.如段206所述的方法,其中,所述在步骤(v)中鉴定出的基因具有如下的DNA甲基化水平或归一化的基因表达水平:所述DNA甲基化水平或归一化的基因表达水平超出所述参比多能干细胞系的所述DNA甲基化的正常范围或基因表达的正常范围的中心四分位数至少1.2倍的四分位距。
208.如段206所述的方法,其中,相比于所述参比多能干细胞系的所述参比DNA甲基化水平或基因表达水平,所述在步骤(vi)中鉴定出的基因具有大于20%的DNA甲基化差异、或具有大于2倍的基因表达变化。
209.如段206所述的方法,其中,所述报告记分卡进一步包含所影响的基因的名称,相比于所述至少一种参比多能干细胞系,所述基因在所述感兴趣的多能干细胞系中具有DNA甲基化偏离和/或基因表达偏离。
210.如段206所述的方法,其中,所述DNA甲基化数据通过全基因组DNA甲基化、或简化表观亚硫酸氢盐测序(RRBS)获得。
211.如段206所述的方法,其中,所述基因表达数据通过微阵列数据或定量PCR(qPCR)获得。
212.如段206所述的方法,其中,所述DNA甲基化目标基因、基因表达目标基因以及谱系标志物的基因集列于选自于如下组中的表中,所述组选自:表7、表12A、表12B、表12C、表13A、表13B或表14。
213.如段206-212中任一项所述的方法,其中,所述方法在计算机上进行。
214.如段206-213中任一项所述的方法,其中,所述方法为计算机系统。
215.如段206-214中任一项所述的方法,其中,所述一个或多个程序通过计算机可读介质上的记分卡软件程序进行。
216.用于生产谱系记分卡以对感兴趣的多能干细胞系的分化倾向进行鉴定的方法,所述系统包括:
a.提供计算机,所述计算机具有相关存储器和用于执行一个或多个程序的处理器,所述计算机适于进行一个或多个以下事件:
(i)在至少一种感兴趣的多能干细胞系的拟胚体(EB)中,获得目标谱系标志物基因集的DNA甲基化数据和基因表达数据;以及
(ii)在至少一种参比多能干细胞系的拟胚体(EB)中,获得目标谱系标志物基因集的DNA甲基化数据和基因表达数据;
(iii)任选地,通过以阳性对照将在事件(i)和事件(ii)中获得的所述DNA甲基化数据和所述基因表达数据进行尺度重标,以进行分析归一化;
(iv)任选地,在重复实验中,对在事件(i)和事件(ii)中获得的所述DNA甲基化数据和所述基因表达数据进行方差稳定化并进行样品归一化;
(v)将在事件(i)中获得的来自所述感兴趣的多能干细胞系的所述谱系标志物基因的所述DNA甲基化数据和所述基因表达数据与在事件(ii)中获得的来自所述参比多能干细胞系的所述谱系标志物基因的所述DNA甲基化数据和所述基因表达数据进行比较,并对所述多能干细胞系中具有如下DNA甲基化水平或归一化的基因表达水平的谱系标志物基因进行鉴定:相比于所述参比多能干细胞系的DNA甲基化水平或基因表达水平的正常范围,所述DNA甲基化水平或所述归一化的基因表达水平具有统计学显著量的增加或降低,由此生成每个谱系标志物基因的变异值;
(vi)获得感兴趣的特征性细胞谱系或胚层的谱系标志物基因的基因集;
(vii)通过由在事件(vi)中所获得的谱系标志物基因集中所列出的各谱系标志物在事件(v)中所获得的各自的变异值计算出平均变异,来进行富集分析,
以及
b.生成谱系记分卡报告,所述谱系记分卡报告包含与所述至少一种参比多能干细胞系相比而言所述多能干细胞系的所述谱系标志物基因集中所有基因的平均变异。
217.如段216所述的方法,其中,所述多能干细胞系已被段206所述的记分卡表征。
218.如段216-217中任一项所述的方法,其中,用于所述DNA甲基化数据和基因表达数据的目标谱系标志物基因集列于选自于如下组中的表中,所述组选自:表7、表13A、表13B或表14。
219.如段216-218中任一项所述的方法,其中,事件(v)中的所述参比比较使用放缓t检验,以对如下谱系标志物基因进行鉴定:相比于所述参比多能干细胞系的所述DNA甲基化或基因表达,所述谱系标志物基因在DNA甲基化或基因表达上具有统计学显著增加或减少。
220.如段216-219中任一项所述的方法,其中,使用Bioconductor的Limma程序包进行所述使用放缓t检验的参比比较。
221.如段216-220中任一项所述的方法,其中,所述谱系标志物基因集可通过GeneOntology、MolSigDB计划或curation获得。
222.如段216-221中任一项所述的方法,其中,事件(vii)的所述富集分析由每个谱系标志物各自的t分数计算出平均t分数。
223.如段216所述的方法,其中,事件(iv)所述的样品归一化通过BioconductorVSN程序包进行。
224.如段216-223中任一项所述的方法,其中,事件(vi)中的所述谱系标志物基因集为选自于如下基因集的组中的基因集:外胚层、中胚层、内胚层、神经谱系基因集、造血谱系基因集、多能细胞标记基因集、表皮谱系基因集、间充质干细胞谱系基因集、骨谱系基因集、软骨谱系基因集、脂肪谱系基因集、肌肉谱系基因集、血管谱系基因集、心脏谱系基因集、淋巴细胞谱系基因集、骨髓细胞谱系基因集、肝谱系基因集、胰谱系基因集、上皮谱系基因集、运动神经元谱系基因集、单核细胞-巨噬细胞谱系基因集、ISCI谱系基因集,或表7或表13A和表13B和表14所列出的基因的任何选择。
225.如段216-224中任一项所述的方法,其中,所述方法在计算机上进行。
226.如段216-225中任一项所述的方法,其中,所述系统为计算机系统。
227.如段216-226中任一项所述的方法,其中,所述一个或多个程序通过计算机可读介质上的记分卡软件程序进行。
228.用于产生记分卡以对感兴趣的干细胞系的多能性进行鉴定的系统,所述系统包含以下模块中的至少一种以上:
a.测定模块,用于测量感兴趣的多能干细胞系中的DNA甲基化目标基因的DNA甲基化水平和/或基因表达目标基因的基因表达水平;
b.计算机模块,所述计算机模块包含处理器和相关存储器,所述计算机模块包含以下模块中的至少一种以上:
(i)存储模块,用于存储由所述测定模块所测量的所述DNA甲基化水平和基因表达水平,并存储一种或多种参比多能干细胞系的DNA甲基化目标基因的参比DNA甲基化水平和基因表达目标基因的参比基因表达水平;
(ii)归一化模块,用于对由所述测定模块所测量的基因表达水平进行归一化;
(iii)基因定位模块,用于将在所述多能干细胞系中测量到的DNA甲基化目标基因的所述DNA甲基化水平与一种或多种参比多能干细胞系的DNA甲基化目标基因的所述DNA甲基化水平进行匹配,和/或将在所述多能干细胞系中测量到的基因表达目标基因的所述基因表达水平与一种或多种参比多能干细胞系的基因表达目标基因的所述基因表达水平进行匹配;
(iv)比较模块,用于(1)将来自所述感兴趣的多能干细胞系的DNA甲基化目标基因的所述DNA甲基化水平与来自所述一种或多种参比多能干细胞系的相同DNA甲基化目标基因的所述DNA甲基化水平进行比较,和/或(2)将来自所述感兴趣的多能干细胞系的基因表达目标基因的所述基因表达水平与来自所述一种或多种参比多能干细胞系的相同基因表达目标基因的所述基因表达水平进行比较,并对所述多能干细胞系中具有如下DNA甲基化水平或归一化的基因表达水平的基因进行鉴定:所述DNA甲基化水平或归一化的基因表达水平以统计学显著量超出所述参比多能干细胞系的DNA甲基化水平或基因表达水平的正常范围;
(v)相关性过滤模块,用于对由上所述比较模块鉴定出的基因进行选择,相比于所述参比多能干细胞系的所述参比DNA甲基化水平或基因表达水平,所述基因具有至少大于15%的DNA甲基化差异、或具有至少大于1.5倍的基因表达变化;
(vi)基因集模块,用于对由所述比较模块和/或所述相关性过滤模块鉴定出的感兴趣的基因进行选择,
c.显示模块,用于显示记分卡报告,所述记分卡报告包含由所述比较模块和/或所述相关性过滤模块和/或所述基因集模块鉴定出的基因的数量和/或数量百分比,相比于所述至少一种参比多能干细胞系,所述基因在所述多能干细胞系中具有DNA甲基化偏离和/或基因表达偏离。
229.如段228所述的系统,其中,所述测定模块可测量一种或多种参比多能干细胞系中的DNA甲基化目标基因的DNA甲基化水平和/或基因表达目标基因或谱系标志物基因的基因表达水平。
230.如段228所述的系统,其中,所述存储模块可存储一种或多种参比多能干细胞系中所测量出的DNA甲基化目标基因的DNA甲基化水平和/或基因表达目标基因或谱系标志物基因的基因表达水平。
231.如段228所述的系统,其中,可将一种或多种模块组合成单个模块。
232.用于产生谱系记分卡以对感兴趣的干细胞系的分化倾向进行鉴定的系统,所述系统包含以下模块中的至少一种以上:
a.测定模块,用于测量感兴趣的多能干细胞系的拟胚体(EB)中的多个谱系标志物基因的谱系基因表达水平;
b.计算机模块,所述计算机模块包含处理器和相关存储器,所述计算机模块包含以下模块中的至少一种以上:
(i)存储模块,用于存储由所述测定模块所测量的所述谱系基因表达水平,并存储一种或多种参比多能干细胞系的拟胚体(EB)的谱系标志物基因的参比谱系基因表达水平;
(ii)分析归一化模块,用于基于阳性基因表达对照来对所述基因表达水平进行归一化;
(iii)样品归一化模块,用于对如下基因表达水平进行归一化和方差稳定化:来自相同的感兴趣的多能干细胞系的拟胚体(EB)中的相同谱系标志物基因的重复基因表达水平测量中的谱系标志物基因的基因表达水平;
(iv)比较模块,用于将来自所述感兴趣的多能干细胞系的拟胚体(EB)的谱系标志物基因的所述基因表达水平与来自所述一种或多种参比多能干细胞系的拟胚体(EB)的相同谱系标志物基因的所述基因表达水平进行比较,并计算出各谱系标志物基因在所述多能干细胞系中的谱系基因表达水平与在所述参比多能干细胞系的谱系基因表达水平相比的差异的统计差异;
(v)基因集模块,用于对感兴趣的特定细胞谱系的特征性谱系标志物基因的子集进行选择;
(vi)富集分析模块,用于计算由所述基因集模块选定的所述谱系标志物基因的子集的基因的平均统计差异,所述统计差异由所述比较模块计算得出,
c.显示模块,用于显示谱系记分卡报告,所述谱系记分卡报告包含相比于所述至少一种参比多能干细胞系而言所述多能干细胞系的谱系标志物基因集的各子集中的谱系标志物基因的谱系基因表达的平均统计差异。
233.如段232所述的系统,其中,可将一种或多种模块组合成单个模块。
实施例
在这个申请中,引用了多种出版物。为了更充分地描述本发明所述领域的现有技术状况,在此以引用的方式将所有出版物以及这些出版物中引用的参考文献的公开内容整体并入本申请。以下实施例不是为了限制本发明要求保护的范围,而是为了提供某些实施方式的示例。本领域技术人员想到的示例方法的任何变体都被视为落入本发明的保护范围。
人多能干细胞的发育潜能表明,它们可为生物医学研究生产疾病相关细胞类型。然而,已报道了多能细胞系中的大量变异,所述变异可影响它们的效用和临床安全性。在转化研究中能安心使用胚胎干(ES)细胞或诱导多能干(iPS)细胞前,必须对这种细胞系特异性差异有更好了解。为了实现这一目标,本发明人建立了20种在先衍生出的人ES系和12种人iPS细胞系的全基因组DNA甲基化和基因表达参比图谱,并测量了这些细胞系的体外分化倾向。这一资源使得本发明人能对ES细胞和iPS细胞的表观遗传相似性和转录相似性进行评估,并能预测单个细胞系的分化效率。分析的组合生成了快速且全面表征多能细胞系的记分卡。
多能细胞系是对疾病建模、药物筛选以及再生医学都非常有价值的工具。然而,目前用于人多能细胞系的验证分析都很繁琐又不总是准确的,这有减缓研究的趋势,并且在关于人iPS细胞的潜能方面导致了一些混乱。为了系统地解决这些问题,本发明人建立了聚焦于31种低传代ES和iPS细胞系的参比图谱,在本文中被称为多能甲基化谱和转录谱的“记分卡”。此外,本发明人还开发了定量分化分析,并测量了这些细胞系的分化倾向。使用这一数据集,本发明人将各ES细胞系或iPS细胞系与ES细胞参比间的偏离进行了定量,产生了细胞系质量和效用的记分卡。本发明人通过证明了以下结论来对这一记分卡进行了验证:(i)它检测出了阻止向CD14阳性细胞分化的DNA甲基化缺陷;以及(ii)它准确地预测出了在制造运动神经元的效率上的细胞系特异性差异。本发明人还就人ES细胞系和iPS细胞系的DNA甲基化、基因表达和分化倾向方面对它们进行了比较,观测到了iPS细胞系的变异较高,但是没有观测到有单个位点或基因标记能准确地将ES和iPS细胞系区别开。总之,本发明人的数据集为使用基因组分析来高通量表征人多能细胞系提供了参比。
方法
ES细胞系和iPSC细胞系以及培养条件
总共20种人ES细胞系、13种人iPS细胞系以及6种原代成纤维细胞系被纳入当前研究(表1)。ES细胞系获得自哈佛干细胞研究所(Harvard Stem Cell Institute)的人胚胎干细胞中心(Human Embryonic Stem Cell Facility)(17种ES细胞系)和WiCell(3种ES细胞系)。在真皮成纤维细胞(dermal fibroblasts)中通过OCT4、SOX2、以及KLF4的逆转录病毒转导得到所述iPS细胞系。通过皮肤穿刺从每个供体的前臂中得到成纤维细胞,并使其按照在先所述的方法生长(Dimos等,2009)。所有多能细胞系已通过常规方法进行了表征,(Chen等,2009;Cowan等,2004;Boulting等,已提交),并根据已建立的标准证实它们具有多能性(Maherali和Hochedlinger,2008)。多能干细胞在人ES培养基中生长,所述培养基由以下组分组成:KO-DMEM(Invitrogen)、10%KOSR(Invitrogen)、10%人血浆蛋白粉(plasmanate)(Talecris)、1%glutamax或L-谷氨酰胺、非必需氨基酸、青霉素/链霉素、0.1%2-巯基乙醇以及10-20ng/ml bFGF。培养物在经照射的(irradiated)CF1-MEFs(GlobalStem)单层细胞上生长,并使用胰蛋白酶(0.05%)或分散酶(Invitrogen)进行传代。收集DNA和RNA用于分析之前,将ES细胞和iPS细胞通过胰蛋白酶处理(0.05%)或分散酶处理进行分离,或铺于基底胶(BD Biosciences)上使其传一代,然后用CF1-MEF中的人ES条件培养基培育24小时。
分化方案
当前研究中共使用了5种ES/iPS细胞分化方案:
(i)不定向EB分化。未分化细胞使用分散酶或胰蛋白酶收集,并在有不含bFGF和人血浆蛋白粉的人ES细胞培养基存在的情况下,将其悬浮铺于低粘附板(low-adherenceplates)。使细胞团块(EB)总共生长16天,每48h更新培养基。
(ii)单核细胞/巨噬细胞分化。根据已发表的用于造血分化的方案,将未分化细胞用多种重组蛋白进行处理(Grigoriadis等,2010)。简单地来说,滋养层耗尽的多能细胞以小团块状悬浮生长于6孔低粘附板(Corning)中的StemPro 34培养基(Invitrogen)中24小时,所述培养基含有青霉素/链霉素、谷氨酰胺(2mM)、单硫代甘油(monothioglycerol)(0.0004M)、抗坏血酸(50μg/ml)(Sigma-Aldrich)和BMP4(10ng/ml)(R&D Systems)。为诱导形成原条(primitive steak)/中胚层,对EB进行漂洗,并将其在补充有人重组bFGF(5ng/ml)(Millipore)的StemPro-34分化培养基中再培养另一个3天。在第4天,再次收集EB,并将其在如上所述的分化培养基中培养另一个4天以诱导造血特化(hematopoieticspecification),该分化培养基另外含有以下成分:hVEGF(10ng/ml)(PeproTech)、hbFGF(1ng/ml)、hIL-6(10ng/ml)(PeproTech)、hIL-3(40ng/mL)(PeproTech)、hIL-11(5ng/mL)(PeproTech)、和人重组SCF(100ng/mL)(PeproTech)。从第8天起,进一步将细胞培养在含有以下成分的StemPro-34培养基中以促进造血细胞成熟和扩增:hVEGF(10ng/ml)、人促红细胞生成素(4U/ml)(Cell Sciences)、人促血小板生成素(50ng/ml)(Cell Sciences)、和人干细胞因子(hIL-6、hIL-11以及hIL-3)。
(iii)中胚层分化。根据已公开的促进中胚层分化的方案,将未分化细胞用Activin A和BMP4处理(Laflamme等,2007)。简单地来说,通过用胶原酶IV(Invitrogen)孵育而收集细胞,然后将其铺在涂有基质胶的细胞培养皿上。为了诱导中胚层分化,将细胞在补充有人重组Activin A(100ng/ml)(R&D Systems)的RPMI-B27培养基(Invitrogen)中培养24h。向培养基中加入人重组BMP4(10ng/ml)4天,之后将细胞用无补充的RBMI-B27培养基进一步培育。
(iv)外胚层分化。通过用胶原酶IV(Invitrogen)孵育来收集未分化细胞,然后将其铺在涂有基质胶的细胞培养皿上。细胞在含有knockout血清替代品(Invitrogen)的KO-DMEM(Invitrogen)培养基中生长,所述培养基补充有Noggin(500ng/ml)(R&D Systems)和SB431542(10μM)(Tocris)。
(v)运动神经元分化。按照已公开的方案(DiGiorgio等,2008),将未分化细胞进行分化,Boulting等(已提交)对所述方案进行了更详细的描述。
DNA甲基化定位
简化表观亚硫酸氢盐测序(RRBS)。根据以前公开的方案(Smith等,Methods 48,226(2009))、针对临床样品和低输入量DNA进行了一些优化(Gu,H.等,Nat.Methods 7,133(2010)),进行RRBS(Cowan,C.A.等,N.Engl.J.Med.350,1353(2004))。主要步骤为:(i)将总共50ng(ES细胞)或1μg(结肠样品)基因组DNA用5U-20U的MspI(New England Biolabs,NEB)消化16h。(ii)在20μl反应中进行被消化DNA的末端修复和腺苷酰化,所述反应由10UKlenow片段(3’→5’外切,NEB)和2μl预混核苷三磷酸(1mM dGTP,10mM dATP,1mM 5’甲基化dCTP)组成。将反应在30℃下孵育30min,然后在37℃下再孵育30min。(iii)将含有5-甲基胞嘧啶的预退火Illumina接头(adapters)在20μl反应中与腺苷酰化的DNA在16℃下连接16-20小时,所述反应含有1μl高浓度T4连接酶(NEB)和1-2μl的15μM接头。(iv)如先前所述(Gu,H.等,Nat.Methods 7,133(2010)),对插入有大小为40-120碱基对和120-220碱基对的片段进行基于凝胶的选择。(v)按照指定用于从福尔马林固定和石蜡包埋组织中分离的DNA的方案,用EpiTect亚硫酸氢盐试剂盒(Qiagen)进行亚硫酸氢盐处理。为了使亚硫酸氢盐转化率最大化,进行2轮转化。将最终的亚硫酸氢盐转化的DNA用2×20μl预热(65℃)EB缓冲液进行洗脱。(vi)为了测定用于最终文库富集的最小PCR循环数,建立分析(10μl)PCR反应,所述PCR反应含有0.5μl经亚硫酸氢盐处理的DNA、各0.2μM的Illumina PCR引物LPX1.1和2.1、以及0.5U PfuTurbo Cx热启动DNA聚合酶(Stratagene)。热循环仪条件为:处于95℃下5min;不同循环数(10-20):处于95℃下20s、处于65℃下30s、处于72℃下30s;然后处于72℃下7min。通过在4-20%聚丙烯酰胺标准TBE凝胶(Bio-Rad)上跑胶并用SYBR Green染色使PCR产物可视化。由8个25μl PCR反应生成最终的文库,所述25μl PCR反应各自含有2-3μl经亚硫酸氢盐转化的模板、1.25U PfuTurbo Cx热启动聚合酶和各0.2μM的Illumina LPX1.1PCR引物和2.1PCR引物。如之前所述,在Illumina基因组分析仪II(Genome Analyzer II)上对所述文库进行PCR扩增和测序(Gu,H.等,Nat.Methods 7,133(2010))。使用定制比对软件(为RRBS数据而开发),将测序片段映射至(aligned)人基因组的NCBI36(hg18)assembly(Meissner,A.等,Nature 454,766(2008))。
在一些实施方式中,根据之前公开的方案(Smith等,2009)和针对小细胞数量的一些优化(Gu等,2010)进行RRBS。使用Maq亚硫酸氢盐比对模式(Li等,2008)对原始测序读段进行映射,并使用定制软件进行DNA甲基化调用(calling)(Gu等,2010)。为了鉴定给定细胞系中偏离了所有人ES细胞系参比的基因启动子,本发明人进行加权t检验(weighted t-tests)来比较感兴趣的细胞系和研究中所囊括的所有人ES细胞系参比(但排除正在测定的细胞系)间给定基因启动子上各CpG的DNA甲基化状态,然后使用Fisher联合概率检验(Fisher’s combined probability test)的加权版本将相应的p值联合成单区域特异性的p值。基因启动子被定义为Ensembl注释基因所注释的转录起始位点周围-5kb到+1kb的序列窗(Hubbard等,2009)。对每个CpG的测序覆盖度进行加权。最后,将q值法用来分析多重检验(Storey和Tibshirani,2003);并且,如果具有如下统计学显著性:错误发现率(FDR)小于5%和绝对DNA甲基化差异超过通常使用的阈值20个百分点(Bibikova等,2009),即认为该基因组区域为差异甲基化的。注意,样品间测序深度和覆盖度的差异可影响这一检验的统计功效,但不会使所述检验向低甲基化或超甲基化发生偏倚。使用R统计程序包(万维网:r-project.org/)进行所有统计分析,并且其作者会应要求提供源代码。
克隆亚硫酸氢盐测序(Clonal bisulfite sequencing)
使用PureLink基因组DNA mini试剂盒(Invitrogen)分离基因组DNA,使用EpiTect试剂盒(Qiagen)对DNA进行亚硫酸氢盐转化,然后对50ng经亚硫酸氢盐转化的DNA进行PCR扩增。引物序列为CD14正向5’-AGTTGTGGTTGAGGTTTAGGTT-3’(SEQ ID NO:5)和反向5’-ACCACAAAACTTACACTTTCCA-3’(SEQ ID NO:6)。对扩增子进行凝胶纯化,然后使用TOPO TA克隆试剂盒(Invitrogen)进行亚克隆。随机选择克隆进行测序,然后使用BiQ Analyzer软件处理测序数据(Bock等,2005)。
其它DNA甲基化定位方法:
甲基-DNA免疫沉淀(MeDIP)。使用EZ DNA甲基化试剂盒(Zymo Research)进行MeDIP(Down等,Nat.Biotechnol.26,779(2008))。使用Bioruptor以8个10min间隔(运行30s,停止30s)对每个样品的总共300ng DNA进行超声,产生平均大小为150碱基对的片段。如在先所述的方法对超声后的DNA进行末端修复并与测序接头进行连接(Down等,Nat.Biotechnol.26,779(2008))。针对大小在100和200碱基对之间的片段进行基于凝胶的选择后,根据制造商的方案进行甲基化DNA免疫沉淀。将共1μg的抗5-甲基胞嘧啶单克隆抗体(包含在EZ DNA甲基化试剂盒中)用于免疫沉淀。将免疫沉淀的DNA进行PCR扩增,然后如前所述通过qPCR对选定位点的富集特异性进行确证(Rakyan,V.K.等,Genome Res.18,1518(2008))。根据制造商的标准方案,在Illumina基因组分析仪II上进行2个通道(lanes)的36碱基对单末端测序(single-ended sequencing)。将具有默认参数的Maq用于将测序读段映射至人基因组的NCBI36(hg18)assembly(Li,H.,Ruan,J.,和Durbin,R.,Genome Res.18,1851(2008))。
甲基化DNA捕获(MethylCap):使用SX-8G/IP-Star(Diagenode)以自动过程进行MethylCap(Brinkman,A.B.等,Methods(2010))。将2μg的His6-GST-MBD(Diagenode)与1μg的超声后DNA在200μl的结合缓冲液(BB,20mM Tris-HCl pH 8.5,0.1%Triton X-100)中进行结合,所述缓冲液含有200mM NaCl。在4℃下将这一溶液孵育2小时。磁性GST微珠通过在4℃下用200μl加有200mM NaCl的结合缓冲液洗涤35μl的混匀的MagneGST谷胱甘肽颗粒悬浮液(Promega)而制备。重复漂洗一次,然后移除上清液。将GST-MBD-DNA溶液加至经洗涤并收集的微珠,然后在4℃下使这一悬浮液再旋转1个小时。将上清液(这是穿流(flow-through))除去后,通过漂洗对微珠-GST-MBD-DNA复合物进行洗脱。加入具有不同浓度NaCl的200μl结合缓冲液,然后在4℃下将所述悬浮液旋转10min。使用磁铁将微珠捕获,并收集上清液。洗脱过程由1×300mM(漂洗液)、2×400mM(漂洗液)、1×500mM(“低”洗脱液)、1×600mM(“中”洗脱液)、1×800mM NaCl(“高”洗脱液)组成。如前所述,使用QIAquick PCR纯化离心柱(Qiagen)对收集到的洗脱液进行纯化,用100μl洗脱缓冲液进行洗脱,并为测序做准备(Brinkman,A.B.等,Methods(2010))。在Illumina基因组分析仪II上分别对低洗脱液、中洗脱液和高洗脱液进行单通道的36碱基对单末端序列。使用具有默认参数的Illumina分析管道(Illumina’s analysis pipeline)(ELAND)将测序读段映射至人基因组的NCBI36(hg18)assembly。3种洗脱液各自的通道单独在图2中示出,并经测试对关于Infinium分析的准确性是否因考虑了这一附加信息而提高进行了测定。然而,基于3通道各自读段计数的线性模型并不比基于3通道之和的模型好。
基于微阵列的表观遗传分型(epigenotyping)(Infinium)。通过Broad研究所的基因分析平台进行Infinium(Bibikova,M.等,Epigenomics 1,177(2009))分析。根据制造商的方案,对每个样品总共1μg的基因组DNA进行亚硫酸氢盐处理,然后将其杂交至InfiniumHumanMethylation微珠阵列(bead arrays)(Illumina)。本发明人之前观测到了技术重复之间近乎完全一致(Pearson的r>0.98),这是对每个样品仅进行单次杂交的原因。
数据准备和质量控制
对于MeDIP和MethylCap,为了在下游分析中使PCR偏倚的影响最小,映射读段都延伸至在超声处理期间所获得的平均片段长度;并且,除一个读段被舍弃外,映射读段来自于从各组重复读段(即,映射至同一染色体上完全相同起始位置处的读段)中。对于RRBS,将映射读段与参比基因组进行比较,并使用如上所述的定制软件对DNA甲基化状态进行测定(Gu,H.等,Nat.Methods 7,133(2010))。用Illumina的BeadStudio 3.2软件处理InfiniumHumanMethylation27数据,使用默认背景减除法(default background subtractionmethod)进行归一化。通过在Python程序设计语言中实现的定制脚本构建UCSC基因组浏览器通道(http://www.python.org/)。
绝对DNA甲基化水平的定量。本发明人使用线性回归模型从MeDIP和MethylCap读段计数中估算绝对DNA甲基化水平。基于许多不同特征的选择实验,本发明人发现以下变量的组合对于DNA甲基化水平具有可靠的预测性:(1)给定区域内MeDIP或MethylCap读段总数的平方根;(ii)所述区域内全细胞提取物(WCE)读段总数的平方根(基于本发明人通常用于ChIP-seq数据归一化的cross-tissue WCE track);(iii)所述区域内CpG频率的分对数(logit);(iv)所述区域的相对GC含量;(v)C相对于CpG的比例;以及(vi)RepeatMasker所测定的所述区域的相对重复含量(relative repeat content)(http://www.repeatmasker.org)。本发明人根据Infinium数据发现,对于MeDIP和MethylCap,读段频率与绝对甲基化水平呈强正相关,而重复含量则与其呈中度正相关。相反,CpG频率的分对数与DNA甲基化高度负相关,并且所有其它变量和模型的截距(intercept)都显示出中度负相关。对于模型拟合和性能评价,将当前的数据集分为同样大小的训练集和测试集。使用R统计程序包进行所有模型拟合(http://www.r-project.org/)。
差异甲基化区域的鉴定。以本发明人的经验,传统峰值检测(Park,P.J.,Nat.Rev.Genet.10,69(2009);和Storey等,PNAS 100,9440(2003))不是很适合于DMR鉴定,因为当边界峰在一个样品中被检测到而在另一样品中未被检测到时,会产生大量伪命中(C.Bock,C.Bock,未发表的观测)。与之不同,本发明人使用统计检验直接将2个样品相互进行比较。对于具有RRBS数据的给定区域,可对两种样品中的甲基化CpG和非甲基化CpG的数量进行计数,然后进行Fisher精确检验,从而获得p值(表明该区域为DMR的可能性)。类似地,对于MeDIP和MethylCap,本发明人对两种样品映射至区域内部的读段数量进行计数,然后使用Fisher精确检验来将这些值与映射至基因组中别处的读段总数进行比对。对于Infinium分析,本发明人使用配对样本t检验(paired-samples t-test)来比较区域内部的所有Infinium探针的2种样本的β值。这些测试在大量基因组区域上并行进行(例如,在所有CpG岛上),并使用q值法对多重检验的p值进行校正(Storey,等,PNAS 100,9440(2003))。但只有当绝对DNA甲基化差异超过20%(对于RRBS和Infinium来说)或当读段数有至少2倍的差异(对于MeDIP和MethylCap而言)时,将q值小于0.1的基因组区域标记为超甲基化或低甲基化(取决于差异的方向性)。根据这些阈值在不同细胞类型间的大量比较中的实际效用选择出这些阈值,并没有进一步的合理解释。本发明人还为测序覆盖度不足的基因组区域做标记,但不将它们从DMR分析中排除。对于MeDIP和MethylCap,发明人建议对于样品而言至少每一千万总读段中具有至少10个读段(读段覆盖度较高);而对于RRBS,发明人建议两种样品中的每种具有最少5个CpG与至少5个读段。
DMR鉴定的这一统计方法要求确定进行该分析所针对的基因组区域集。本发明人实行两路策略来最大化发现感兴趣的DMR的机会。一方面,本发明人具体聚焦在CpG岛和基因启动子上,其为表观遗传调节的主要候选者。因为相比全基因组的情况而言,CpG岛和基因启动子的数目相对较少减轻了多重检验校正的负担,因而这一方法使得对于具有已知功能作用的区域的统计功效提高。另一方面,本发明人使用基因组的1千碱基tiling来检测位于任何候选区域外的DMR。为了把网撒的更宽,本发明人集中全面的13种基因组区域集,其中不仅包括CpG岛和基因启动子,还包括CpG岛海滩30、增强子60、进化保守区域及其它类型的基因组区域。所有这些区域集的DMR数据可用Python和R脚本进行计算,并可在线使用(http://meth-benchmark.computational-epigenetics.org/)。
实验验证。基于CpG岛(作为2种不同ES细胞系的差异甲基化产物进行检测),本发明人人工选择了8种方法特异性的DMR来进行实验验证。为此,在UCSC基因组浏览器中对由一种方法(而不是通过其它两种方法)被鉴定为统计上显著的DMR的那些CpG岛进行可视化检查,只有当区域的数据完全支持其方法特异性DMR分类时,才选择所述区域用于验证。尤其是,如果第二种方法已经在与第一种方法相同的方向得到了暗示性但不显著的趋势、或者当第一种方法的数据已经暗示所述DMR为假阳性命中时(例如,因为在所述DMR附近存在的矛盾趋势),则不选择所述区域。根据已建立的方案61,通过克隆亚硫酸氢盐测序来进行实验验证。使用MethPrimer62设计引物,使得扩增子与显示出与本发明人原始数据具有最高差异甲基化水平的CpG有重叠。为了给亚硫酸氢盐测序做准备,使用EpiTect试剂盒(Qiagen)对1μg DNA进行亚硫酸氢盐转化;将50ng经亚硫酸氢盐转化的DNA进行PCR扩增;然后使用TOPO TA克隆试剂盒(Invitrogen)克隆纯化后的扩增子。对于每个区域,平均随机选择11个克隆进行测序。使用BiQ Analyzer软件对所有测序数据进行处理(Bock,C.等,Bioinformatics 21,4067(2005))。
重复DNA的分析。重复序列从RepBase的更新数据库版本14.07中获得(Jurka,J.,Trends Genet.16,418(2000)),所述数据库在网上是公开的(http://www.girinst.org/server/RepBase/index.php)。从总共11,670个原型重复序列(prototypic repeatsequences)中,本发明人选出了在分类树中被注释为人或者其祖先的1,267个,然后本发明人将这些原型重复序列组合成伪基因组文件(pseudo-genome file)。具有默认参数的Maq被用于将MeDIP、MethylCap、RRBS、ChIP-seq(H3K4me3)和全细胞提取物(WCE)测序读段映射至这一伪基因组(Li,H.,Ruan,J.,和Durbin,R.,Genome Res.18 1851(2008))。对于RRBS,在比对之前,将读段和参比基因组均在电脑上进行了亚硫酸氢盐转化。根据以下方式对每个原型重复序列的表观遗传状态进行定量:(i)对于MeDIP、MethylCap和ChIP-seq,本发明人计算出相对于WCE数据的优势比(odds ratios);(ii)对于RRBS,基于映射读段与原型重复序列的比较,本发明人计算出了甲基化CpG的数目、CpG测量的总数以及DNA甲基化的百分比。
本发明人舍弃了WCE覆盖度低于100映射读段或RRBS覆盖度低于25个CpG测量的稀有重复,得到553个原型重复序列以用于进一步分析。其中,存在97个LINE类序列(它们中的92个来自于L1家族)、51个SINE(它们中的48个来自于Alu家族)、6个SVA、62个DNA重复、15个卫星重复、315个LTR、1个低复杂度重复以及6个RNA重复。为了定量MeDIP和MethylCap样品对之间的差异甲基化,本发明人为每个原型重复序列计算出了读段覆盖度的成对优势比,而在RRBS的情况下,使用绝对DNA甲基化差异。以与非重复基因组(如上所述)相同的方式,使用Fisher精确检验对差异的显著性进行评估。
基因表达谱
通过Broad研究所的微阵列核心设备进行微阵列分析。自始至终地使用了Affymetrix GeneChip HT HG-U133A微阵列。使用Bioconductor的gcRMA程序包对微阵列强度数据进行归一化(Gentleman等,2004),并使用array Quality Metrics对其进行质量控制(Kauffmann等,2009)。为了鉴定给定细胞中偏离了所有人ES细胞系样品参比的基因,本发明人进行了在limma程序包中实现的放缓T检验(Smyth,2005),比较了感兴趣的细胞系和这一研究中所囊括的所有人ES细胞系参比(但排除进行测试的细胞系)。如果相比于那些基因的参比基因表达,表达水平具有FDR小于10%、和/或表达水平上调或下调至少两倍或>1log-2倍的统计学显著性,本发明人认为其为差异表达基因。使用R统计程序包(万维网:r-project.org/)进行所有统计分析,并且其作者应要求可提供源代码。
定量RT-PCR分析
根据制造商的建议,使用RNeasy试剂盒(Qiagen)分离总RNA,然后使用标准方案进行cDNA合成。简单地说,使用Superscript II反转录酶(Invitrogen)和随机六聚物(Invitrogen)与500ng的总RNA投入合成cDNA。将SYBR Green PCR混合物(AppliedBiosystems)用于qPCR分析,所述分析在StepOnePlus实时PCR系统(Applied Biosystems)上完成。以下为PCR条件:94℃起始变性5min;40个循环:94℃15s、60℃15s、72℃30s;以及72℃10min。引物序列为:CD14正向5’-ACGCCAGAACCTTGTGAGC-3’(SEQ ID NO:7)和反向5’-GCATGGATCTCCACCTCTACTG-3’(SEQ ID NO:8);CD33正向5’-TCTTCTCCTGGTTGTCAGCT-3’(SEQID NO:9)和反向5’-GAGGCAGAGACAAAGAGCG-3’(SEQ ID NO:10)(Garnache-Ottou等,2005);CD64正向5’-GTGTCATGCGTGGAAGGATA-3’(SEQ ID NO:11)和反向5’-GCACTGGAGCTGGAAATAGC-3’(SEQ ID NO:12)(Li等,2010);以及GAPDH正向5’-ACCCACTCCTCCACCTTTGAC-3’(SEQ ID NO:13)和反向5’-ACCCTGTTGCTGTAGCCAAATT-3’(SEQID NO:14)。使用比较循环阈值(comparative threshold cycle)(ΔΔCt)方法对相对定量进行计算。
定量拟胚体分析和谱系记分卡
对于拟胚体分化,将ES细胞/iPS细胞用分散酶或胰蛋白酶处理,并在不含bFGF和人血浆蛋白粉的人ES培养基存在的情况下,将其悬浮铺于低粘附板。总共使细胞团块或拟胚体生长16天,每48h更新培养基。在第16天,将细胞裂解,并使用Trizol(Invitrogen)提取总RNA,然后使用RNeasy试剂盒(Qiagen)进行柱纯化。接着,根据制造商的说明,使用300-500ng的RNA在NanoString nCounter系统上进行分析。nCounter代码集(codeset)含有500种基因,所述基因因为其监测细胞状况、多能性以及分化能力而通过计算选中。因为nCounter系统是最近才引进的,还没有很好的实践来对表达值(expression values)进行归一化。本发明人测试了几种不同过程,并发现使用阳性对照的spike-in归一化与VSN算法(Huber等,2002)结合能产生最好的结果。以和微阵列数据大致相同的方式进行数据分析。具体而言,本发明人使用放缓T检验来对感兴趣的细胞系的拟胚体中的基因表达和这一研究所囊括的所有ES细胞衍生的拟胚体参比(但将进行测试的细胞系排除在外)进行比较。为了给基因集测试做准备,本发明人计算出了所有基因t分数的平均值和标准差。然后,本发明人分别计算了预先定义的所有基因集的平均t分数;并且,如前所述的,本发明人针对所有基因的平均数进行了参数检验(Kim 2005)。关于谱系记分卡图表,本发明人标绘出了对所有有贡献的基因集进行平均的、与显著性独立的t分数总平均数和基因测试平均数之间的带符号差异(signed difference)。
免疫细胞化学和FACS分析
使用以下第一抗体进行免疫染色:AFP(Dako)、巢蛋白(Chemicon)、OCT4(SantaCruz Biotechnology)、α-SMA(Sigma)、SSEA3(Biolegend)、SSEA4(Chemicon)、TRA-1-60(Chemicon)、TRA-1-81(Chemicon)、βIII微管蛋白(Abcam)、以及VEGFRII(Abcam)。对于FACS分析,将EB用胰蛋白酶分离成单细胞,用PBS漂洗,用4%多聚甲醛固定过夜,然后用0.5%的PBS-Tween透化(permeabilized)20min-1小时。然后将细胞(~500k)在补充有10%驴血清的0.1%PBS-Tween中封闭1h,并与第一抗体(AFP:1:300,DakoCtomation)孵育过夜,再与二抗孵育1h,漂洗,然后重悬于具有0.1%驴血清的1ml PBS中。使用BD Biosystems LSRII分析仪对样品进行分析。对于FACS分析,将EB用胰蛋白酶分离成单细胞,用PBS漂洗,用4%多聚甲醛固定过夜,然后用0.5%的PBS-Tween透化20min-1小时。然后将细胞(~500k)在补充有10%驴血清的0.1%PBS-Tween中封闭1h,并与第一抗体(AFP:1:300,DakoCtomation)孵育过夜,再与二抗孵育1h,漂洗,然后重悬于具有0.1%驴血清的1ml PBS中。使用BDBiosystems LSRII分析仪对样品进行分析。
偏离记分卡计算
偏离记分卡总结了所感兴趣的细胞系中哪些基因以及多少基因偏离了ES细胞参比。所述参比由20种低传代ES细胞系构成;或者当计算通常是所述参比的一部分的细胞系的偏离记分卡时,所述参比由剩下19种ES细胞系构成。仅除了微阵列数据需要另外的归一化步骤外,用于计算偏离记分卡的算法(在图11A中进行了概述)与用于DNA甲基化数据和基因表达数据的相同。从统计学的角度来看,偏离记分卡以使用Tukey离群过滤的非参数离群值检测为基础(Tukey,1977)。感兴趣的细胞系中DNA甲基化值或基因表达值超出中心四分位数大于1.5倍的四分位距的所有基因均被视为可疑离群值,并按此进行标记。接下来,考虑变化幅度,最终仅将与ES细胞参比的偏离大到足以被认为具有生物学意义的基因报告为离群值。对于DNA甲基化,本文中使用至少20个百分点的阈值;对于基因表达,则使用至少2倍的阈值,这与先前的工作一致(Bock等,2010),并且在图10C中进一步证明了其是合理的。为了说明取决于所影响的基因,偏离可或多或少地值得关注,将两个需要对其DNA甲基化缺陷特别密切监测的基因列表组合,即,谱系标志物基因和癌基因(例如,肿瘤抑制基因和致癌基因)。在偏离记分卡的扩展版本中对这些基因的偏离进行特别强调(表6)。最后,本发明人还评价了用于标记出离群值的其它策略,所述策略包括基于放缓t检验的参数法。总之,确定Tukey离群过滤给出了最相关的结果,并具有能够通过“参比走廊”箱线图直观可视化的额外优点(参见图1C和图4A)
谱系记分卡计算
谱系记分卡相对于由19种低传代ES细胞系构成的参比,对感兴趣的细胞系的分化倾向进行了定量。用于计算谱系记分卡的算法(在图11B中概述)使用放缓T检验(Smyth,2004)和在t分数上进行的基因集富集分析(Nam和Kim,2008;Subramanian等,2005)的组合。为了给针对谱系特异性分化倾向而进行的定量提供生物学基础,收集了用于以下谱系的若干标志物基因集:3个胚层中的每一种(外胚层、中胚层、内胚层)、以及神经谱系和造血谱系(参见表7、表13A和表14)。随后,将Bioconductor的limma程序包用来执行对感兴趣的细胞系获得的EB的基因表达和ES细胞参比获得的EB的基因表达进行比较的放缓T检验,并计算出了有助于相关基因集的所有基因的平均t分数。高平均t分数表明测试EB中基因集的基因表达增加,并被认为是相应谱系高分化倾向的指示。相反,低平均t分数表明相关基因的表达降低,并被认为是相应谱系低分化倾向的指示。为了增加分析的鲁棒性,所述平均t分数对分配至给定谱系的所有基因集进行平均。谱系记分卡图表(图5B和图5D)列出了这些“基因集平均t分数的平均值”以作为细胞系特异性分化倾向的定量指标。谱系记分卡分析和验证使用自定义R脚本(custom R scripts)进行(由万维网r-project.org/可得)。最后,运动神经元分化效率(由Boulting等的方法通过实验获得)提供了用于对谱系记分卡的预测功效进行测定的细胞系的真实测试集。此外,已在进行2个数据集间的首次比较之前将谱系记分卡的生物信息学算法确定了下来,并且没有对记分卡的方面进行回顾性优化以改善拟合。
生物信息学分析和数据访问
除方法特异性的数据归一化和记分卡计算(如上所述)外,可按照如下方式进行数据集的生物信息学分析:
(i)分层聚类(图1、图3、图8和图9)。DNA甲基化水平计算为Ensembl注释的转录本的启动子区域中的所有CpG的覆盖度加权平均;基因表达水平计算为对于每个Ensembl基因,通过对微阵列上的所有相关探针进行平均。在分层聚类前,为了让两个数据集有等量权重,可分别将2个数据集的每一个各自归一化成零均值和单位方差。热图显示了250个基因的代表性选择。使用Euclidean距离函数(Euclidean distance function)和均连法(average-linkage method)在R(可从万维网中获得:r-project.org/)中进行分层聚类。
(ii)注释聚类和启动子特征(图2D)。基于Ensembl基因注释(启动子定义为转录起始位点周围-5kb至+1kb的序列窗),使用具有默认参数的DAVID(Huang等,2007)和EpiGRAPH(Bock等,2009)来对最具变异性的基因中的共同特征进行鉴定。
(iii)ES细胞系与iPS细胞系的分类(图3D)。为验证在先报道的iPS基因标记,由目前的数据集在给定标记中对所有基因计算出平均DNA甲基化水平或表达水平。将逻辑回归用于选择最具区别的阈值,并且通过留一法交叉检验对每种标记的预测能力进行评价。为了得到新的分类子,使支持向量机关注于DNA甲基化数据、基因表达数据、或两种数据集的组合。
对7500种随机选择的属性各自进行分类,这在单个分析中对分析来说是简单且计算机上可行的最大量的属性。通过留一法交叉检验对所有分类子的预测能力进行评价,并以随机属性集对超过100种分类子的性能进行平均(如图3D中所示)。注意,这些分类均未使用特征选择。有监督特征选择或无监督特征选择也许能增加预测的准确度,但在第二个验证数据集不存在的情况下,并不清楚此类改善是对预测性的真实增加的反映,还是对过度拟合于当前的数据集的反映。所有预测使用Weka软件(Frank等,2004))来进行。
(iv)表观遗传记忆的线性模型。为DNA甲基化和基因表达二者构建2种可选的线性模型。一个模型用于在ES细胞特异性平均DNA甲基化(或基因表达)水平上对每个基因的iPS细胞特异性平均DNA甲基化(或基因表达)水平进行回归。第二种模型用于在ES细胞特异性平均DNA甲基化(或基因表达)水平和成纤维细胞特异性平均DNA甲基化(或基因表达)水平上对每个基因的iPS细胞特异性平均DNA甲基化(或基因表达)水平进行回归。两种模型均通过方差分析(ANOVA)进行比较。在R中进行所有计算(可从万维网上获得:r-project.org/)。
实施例1
hES细胞系间DNA甲基化和转录的变异
在给定ES细胞系中存在有许多可影响其DNA甲基化、转录或分化倾向的性质。这些可包括细胞系的遗传背景、对细胞系进行培养的方式、通过延长体外生长(extended invitro growth)所施加的选择压力或不明原因的随机噪声。在能够试图研究多能干细胞系表现中变异的潜在根本原因之前,先测定在大量细胞系群(cohort)中存在的变异的性质和程度是至关重要的。
为了研究多能干细胞群或多能干细胞系间的系间(inter-line)变异,本发明人获得处于低传代数(p15-25)的19种人ES细胞系,在标准条件下将它们培养几代,然后收集DNA以进行DNA甲基化分析,收集RNA以进行转录谱(表1,图8A)。为了与另一细胞类型进行比较,对来自6种低传代人真皮成纤维细胞系的RNA和DNA进行分析,所述成纤维细胞系获得自遗传学上无关的供体的上臂。
表1:高通量实验中所用细胞系的总结。*通过chrY存在/不存在以及NanoString数据、微阵列数据和/或RRBS中X染色体失活的证据验证。
*通过chrY存在/不存在以及NanoString数据、微阵列数据和/或RRBS中X染色体失活的证据验证。
基于几个原因,本发明人选择在ES细胞系中研究DNA甲基化而不是其它染色质修饰。启动子区域中CpG二核苷酸的甲基化与长期的、有丝分裂可遗传的基因沉默有关(Bird,2002;Reik,2007)。因此,细胞系间的差异DNA甲基化可能在分化期间导致变异的基因表达,并潜在地影响发育潜能。用于对DNA甲基化进行研究的另一基本原理为它可通过高度定量分析来进行测量:DNA的亚硫酸氢盐修饰继以DNA测序(Laird,2010)。根据对为测定全基因组DNA甲基化水平而建立的方法的系统比较(Bock等,已提交),本发明人选择了简化表观亚硫酸氢盐测序(RRBS)来用于这一研究(Gu等,2010;Meissner等,2008)。
使用RRBS,本发明人对各细胞系中超过4百万的单个CpG二核苷酸的甲基化状态进行定量。这一基因组规模的覆盖度使得能够测定出所有基因启动子中的四分之三、大多数CpG岛以及许多其它基因组元件的甲基化水平(图8B和图8C;数据未显示)。本发明人证明,每个细胞系在大约4百万CpG上的15-20DNA甲基化测量的平均使得能够检测到细胞系之间DNA甲基化上小量的差异。
作为这一规模研究上的习惯做法(Adewumi等,2007;ENCODE ProjectConsortium,2007;Meissner等,2008;Müller等,2008;Narva等,2010),本发明人仅分析了大多数细胞系的一个重复。然而,本发明人对细胞系的一个子集(n=4)进行了额外重复来评估测量的一致性。本发明人证明,RRBS和微阵列谱两者具有出色的技术可重现性(Pearson’s r>0.99)。生物重现性也高(Pearson’s r>0.95);并且,相比于其它ES细胞系,从相同细胞系经2-7次传代之后收集的生物重复彼此也更类似。虽然本发明人证明了,当它们对来自相同系的高传代细胞(传代>45)和低传代细胞(传代<30)进行比较时呈现出强相关(Pearson’s r>0.95),相比它们与从不同ES细胞系中取得的样品的关系,这些样品彼此间不再更类似(数据未显示)。因为延长培养在DNA甲基化和转录上诱导出另外的变异,本发明人在随后的分析中仅关注19种低传代样品(参见表1)。
为了测定转录和DNA甲基化结合的全局模式(global patterns)是否足以能将ES细胞系分成可能具有不同功能特性的亚类,本发明人在数据集上进行了联合分层聚类(图1A)。本发明人在所述分析中加入了来自6种非多能的成纤维细胞系的类似数据集作为对照。正如期望的那样,生成了2个分离良好的集群(clusters)。一个集群包含了所有ES细胞系,而另一集群包含了所有成纤维细胞对照细胞系。重要的是,在人ES细胞系的集群中,几乎没有甚至根本没有进一步亚聚类的迹象。这一亚聚类的缺乏表明,不存在具有全局甲基化和转录标记的离群ES细胞系(可以使后续分析偏斜(skewed))。另外,截然不同的ES细胞亚类的缺失可靠地表明所有19种ES细胞系的转录和DNA甲基化总模式类似。
虽然甲基化和转录的全局模式在各ES细胞系中具有很好的保守性,所述细胞系之间许多位点出现变异(图1A)。基于它们的基因表达和DNA甲基化模式,本发明人证明了,大多数位点可归类到4种不同类别中的一种。图1B示出了各类的代表性实例。在细胞系间,许多重要的基因(例如,SOX2)无论在DNA甲基化还是转录上都未显示出变异。相反,一些基因(例如CD14)在细胞系间具有变异的甲基化;而其它基因(例如,GATA6)虽然在转录上显示出不同水平,但在DNA甲基化上没有变异。最后,另一小类基因(包括S100A6)在转录和甲基化上都表现出了变异(图1B)。
为了测定细胞系间DNA甲基化或转录的变异是否对细胞系表现上的差异负有部分责任,本发明人随后对具有不同性能的每个基因进行了鉴定,然后测定这些变异的幅度,以能够对任何给定细胞系的分化倾向进行预测。因此,本发明人对19种ES细胞系中每个位点的甲基化和转录的平均水平、以及这些测量的变异量进行了计算(表3-5)。这些结果包含,如“参比走廊”或“参比DNA甲基化水平”或“参比基因表达水平”,从而分别提供了关于任何基因(例如,目标DNA甲基化基因和目标基因表达基因)在ES细胞中的DNA甲基化或转录的预期水平和范围的取值范围。这在图1C中进行了说明,其利用箱线图示出了“参比走廊”的概念,以显示出几个选定基因的DNA甲基化或转录的平均水平和范围(图1C)。这些图(plots)给被认为“在ES细胞参比范围内”的各位点在DNA甲基化和表达水平上赋予了阈值上限和阈值下限。本发明人还给来自19种细胞系的所有落在所述“走廊”外的测量指定了显著偏离分数(图8D阐释了DNA甲基化数据和用于鉴定细胞系间显著差异的阈值)。有了这一参比在手,本领域技术人员通过进行严格的统计检验,能够测定任何多能细胞系中与所述走廊发生偏离的数量和特征(identity)。另外,使用细胞系间变异的这一“参比图谱”,本发明人可以研究这一变异的性质和潜在来源,并且能测定基因表达和/或DNA甲基化是如何影响干细胞行为的。
实施例2
人ES细胞系中表观遗传变异和转录变异的原因与后果
为了开始探究ES细胞系间转录和甲基化变异的原因和后果,本发明人使用“参比图谱”来对每个位点上这些测量的变异水平进行定量(表4和表5)。这一定量使得本发明人能测定发生变异的基因的比例,以及具有最小变化或实质性变化的基因的特征。所得到的分布是高度偏斜的,其中仅全部基因的16%就占了DNA甲基化变异的50%,仅全部基因的28%就占了基因表达变异的50%(图2A)。因此,细胞系间的大多数变异仅限于位点的子集,这表明这两种类别中的基因的特征可能会提供对它们为什么改变以及它们的变化是否会对给定细胞系产生任何影响的深入了解。
接着,本发明人开始注意细胞系群内高度变异位点与无变异位点的特征(图2A、表4和表5)。正如预计的一样,管家基因(例如,GAPDH)处于干细胞系间变异最小的基因之中。类似地,本发明人表明在功能与多能状态有关的基因(例如,SOX2和DNMT3B)中仅观测到低-中度变异(图2A)。相反,本发明人在调节胚胎发育的几种基因(包括GATA6、LEFTY2和PAX6)中令人惊讶地发现了中-高度的表观遗传变异或转录变异。最后,有少量位点在细胞系间显示出了高度的DNA甲基化变异水平。对于这些基因组元件,DNA甲基化水平在从一些细胞系中几乎0%的甲基化至其它细胞系中几乎100%的甲基化之间进行变化。这些罕见、但高度变异的基因包含转铁蛋白编码基因TF、过氧化氢酶编码基因CAT和巨噬细胞/粒细胞特异性标志物基因CD14。
然后,本发明人评估了变异基因的特征是否能为它们的性能在细胞系间变化的原因提供深入见解。本发明人起初分别集中在具有最高水平的表观遗传变异和转录变异的基因上。令人惊讶地是,本发明人证明,相当大比例的变异最大的基因位于性染色体上(图2B)。这一发现可能为同时纳入雄性与雌性细胞系的结果。预计Y连锁甲基化和转录将在细胞系间改变,因为该染色体在雌性细胞系中不存在。还报告了不同雌性ES细胞系中在X染色体失活上的大量变异,为X连锁基因中高程度的甲基化和转录变异提供了可能的解释(图2B)(Hanna等,2010;Lengner等,2010)。因为性染色体连锁基因是如此重要的变异来源,本发明人担心它们可能限制对基因特征进行鉴定的能力,所述基因特征可能会更微妙地影响它们的转录或表观遗传变异性。因此,在后续的分析中,本发明人排除了与X染色体和Y染色体连锁的位点。
当本发明人专注于常染色体位点时,本发明人证实了,分别在表观遗传和转录上显示出最大变异性的基因集之间存在明显且显著的重叠(p<10-11,Fisher精确检验,图2C)。这一相关表明这些DNA甲基化可能是转录变异最大基因的子集的一种调节机制。基因功能和启动子特征的分析突出显示出了变异与未变异基因间的相关差异(图2D)。本发明人证实了,具有变异转录的位点对于与细胞信号和对外部刺激响应相关的Gene Ontology类别高度富集。
相反,未有证据显示具有变异的甲基化水平的基因对于任何特定功能而富集。相反,本发明人证实了,这些基因的启动子有着共同的结构特征。最为显著的是,这些启动子在CpG二核苷酸(已知具有易于在DNA甲基化上发生变异的特征性基因组区域)方面相对贫乏(Bock等,2006;Keshet等,2006;Meissner等,2008)。
为了研究人ES细胞系间变异的功能后果,本发明人接着更详细地对在ES细胞系间表现出高度变异的DNA甲基化水平的基因(但在ES细胞中总是沉默)进行了研究(图1B)。本发明人评估了这些基因上的表观遗传缺陷是否能在转录上具有延迟效应,以削弱沿与所影响的细胞相关的轨道进行的分化。为了证明这一点,本发明人对2种具有强烈DNA甲基化差异的ES细胞系(HUES6和HUES8)进行了无偏倚拟胚体(EB)分化,然后对第16天的EB的DNA甲基化以及基因表达进行测量(图2D)。数据表明,2种细胞系间的大多数DNA甲基化差异在第16天的EB中保持(p<10-16,Fisher精确检验),并且这些DNA甲基化差异常常与这2种细胞系间的差异基因表达相关(p<10-5,Fisher精确检验)。CD14为在两种ES细胞系中都沉默但仅在HUES8中超甲基化的实例。EB分化期间,CD14仅在HUES6中上调;在HUES8中,它的超甲基化基因启动子与其这一ES细胞系中无法由分化而活化有关。考虑到CD14作为巨噬细胞和中性粒细胞的规范表面标志物的作用,本发明人确定了,希望通过定向分化生成大量这些细胞的人应该避免HUES8这一特定细胞系。更一般地说,它突出显示了监测DNA甲基化(作为标志物)在预测分化中的限制或可能的偏倚中的相关性,而这在未分化ES细胞的转录水平上是无法检测到的。
实施例3
DNA甲基化和转录的全局模式在hES细胞和hiPS细胞间类似。
本发明人的人ES细胞系变异“参比图谱”能让本发明人通过与ES细胞“参比走廊”的统计比较测定出任何新细胞系中偏离正常的基因的数量和特征。借助于确定因子的重编程来生产用于多种应用的人iPS细胞系(Park等,2008b;Takahashi等,2007;Yu等,2007),存在对如何为给定目的选择最合适的iPS细胞系的逐渐增长的需求。定位iPS细胞系中的DNA甲基化和转录变异能允许本领域技术人员确定在重编程细胞及其ES细胞对应物(counterpart)之间是否存在具有系统性差异的位点。此外,这将进一步帮助指导选择高质量iPS细胞系(类似于本文针对ES细胞所述的内容)。
因此,本发明人在来自6个不同供体的11种iPS细胞系(通过OCT4、SOX2和KLF4的逆转录病毒转导而得)中对DNA甲基化和基因表达进行定位(参见表1)。这些iPS细胞系已被广泛表征(Boulting等,共同提交),并在类似于19种参比ES细胞系的培养条件下维持,然后在可比较的传代数时收集DNA和RNA。如针对ES细胞系的方式,进行这些iPS细胞系的DNA甲基化和转录剖析,并再一次获得了可高度重现的数据(图9A)。
本发明人起初询问iPS细胞系是否具有不同于ES细胞的转录和DNA甲基化全局模式。本发明人使用来自19种ES细胞系和11种iPS细胞系的全部数据集来进行联合分层聚类。本发明人还加入了来自用于聚类分析的6种成纤维细胞系的数据集作为对照(图1A)。如之前的分析,生成了2个充分分离的集群。一个集群包含了成纤维细胞系,而另一集群包含了所有ES细胞系和iPS细胞系(图3A和图9B)。重要的是,本发明人多能细胞系中未鉴定到子聚类,这表明如果在ES细胞和iPS细胞之间存在任何系统差异,它们并未强到足以被这种形式的分析记录到。
为了在这两种多能细胞类型间产生更多的定量比较,本发明人从来自全部30种细胞系的数据开始,计算出了所述数据集中每个基因与ES细胞“参比走廊”偏离的平均程度(表4和表5)。在19种ES细胞系与参比的变异和11种iPS细胞系与参比的变异之间观测到高度的一致性,在DNA甲基化和基因表达上具有r=0.89的Pearson相关系数,这表明在iPS细胞中显示出偏离的大部分基因在ES细胞系之中也为高变异的(图3B)。例如,在ES细胞系间表现出最大DNA甲基化变异水平的基因(例如,TF、CAT和CD14)在iPS细胞系间也显示出了最大的变异。与预想相同,GAPDH在ES细胞系或iPS细胞系间未变异(图3B)。虽然ES细胞和iPS细胞中变异基因的性质之间具有高的相关性,这些基因与ES细胞参比的表观遗传和转录偏离的定量程度比iPS细胞系中的定量程度稍高(图3C)。综上所述,在本文的ES细胞和iPS细胞样品中甲基化和转录水平具有变异和无变异基因的列表几乎全部重叠。
实施例4
个体基因的差异甲基化或转录不能准确地区别ES细胞和iPS细胞
不考虑总体相似性,本发明人证实了,iPS细胞系中的少量基因显示出与“参比”甲基化和转录水平的偏离大幅提高。在iPS系的子集中,一些基因为超甲基化的,例如蛋白酶HTRA4(11种iPS细胞系的9种中)、神经元特异性RNA结合蛋白NOVA1(11种iPS细胞系的2种中)以及松弛激素(relaxin hormones)RLN1/2(RLN1:11种iPS细胞系的8种中;RLN2:11种iPS细胞系的5种中)。其它基因在iPS细胞系中以较高水平转录,例如溶血磷脂酶(lysophospholipase)CLC(11种iPS细胞系的3种中)、以及晶体蛋白(crystallin)CRYBB1(11种iPS细胞系的3种中)(图3B)。
HTRA4的启动子区域在11种iPS细胞系的9种中为超甲基化的、在6种成纤维细胞系的6种中为超甲基化的;但在所有ES细胞系中(n=19)均为非甲基化的。此类ES细胞和iPS细胞间的DNA甲基化模式的偏离可能被认为是证明分化状态的表观遗传“记忆”和不完全重编程的证据。将对此类“记忆”进行预测以在某些位点在iPS细胞和体细胞间产生DNA甲基化镜像(mirroring)。为了直接且定量地测试在iPS细胞中是否存在体表观遗传状态(somaticepigenetic state)的明显记忆,本发明人构建了统计模型,所述统计模型对基因特异性体细胞记忆的预测效力进行检验,同时对ES细胞系中变异性的混杂影响进行了控制。具体而言,基于ES细胞参比的平均数和变异、或ES细胞参比的平均数和变异、以及成纤维细胞偏离所述ES细胞参比的方向和幅度,本发明人导出了线性模型,以预测iPS细胞与ES细胞参比的偏离方向和幅度。当本发明人对这2种模型进行统计比较时,本发明人证明了,后一种模型(将“表观遗传记忆”考虑在内)仅比前一种稍好一点地解释了在iPS细胞系中的表观遗传偏离水平(解释了0.5%的额外变异)。虽然存在其它本发明人未控制的混杂因素(confounding factors)(可适度减少由表观遗传记忆得以解释的变异),本发明人的数据清楚地证实了,表观遗传记忆不是在人ES细胞和iPS细胞间DNA甲基化水平变化的重要决定因素。
据报道,在通过四倍体胚胎补偿技术(tetraploid embryo complementation)没能生成小鼠的小鼠ES细胞和iPS细胞中,另一需要注意的基因MEG3差异表达(Liu等,2010;Stadtfeld等,2010b)。MEG3为印记基因(imprinted gene),发现于人第12号染色体上的DLK1/DIO3印记域,并在各种组织中显示出发育调节表达模式。MEG3的表达在19种人ES细胞系中的10种里是高变异的,而在剩下的9种中是沉默的。与ES细胞系中它的变异表达相反,未在任何iPS细胞系中检测到MEG3转录,并且其仅在6种成纤维细胞系(衍生出iPS细胞系)中的一种中适度表达(图9B)。
本发明人发现MEG3的沉默不应该被认为是iPS特异性现象。本发明人证实了,MEG3还在许多真皮成纤维细胞系中是沉默的,这暗示并不需要在重编程期间某种形式的不适当沉默以达到人iPS细胞系中所观测到的MEG3的低水平。另外,许多人细胞系不表达MEG3,这表明它的表达不为人多能性所需要。然而,考虑到由差异MEG3表达所引起的细微效应仅能通过四倍体胚胎补偿技术在小鼠中被观测到(Stadtfeld等,2010b),该效应可能很难在人多能细胞系的情况下被检测到。从一个更实际的角度来说,令人欣慰的是表达MEG3与不表达MEG3的两种细胞系都已被广泛并有效地使用。作为最后的可能性,本发明人评估了MEG3表达中的变异是否能在ES细胞或iPS细胞系中作为对表观遗传和/或转录变异总体水平有用的标志物和指标。然而,本发明人发现这并非如此(图9D)。
实施例5
DNA甲基化变异和转录变异的统计建模对辨别出iPS细胞和ES细胞具有有限的效力
本发明人的用于研究iPS细胞和ES细胞间差异的方法利用分层聚类和非常全局的方法,或者个体的、精选的候选物(例如HTRA4和MEG3)的系统性基准。这些方法均不能能准确地描述ES细胞系和iPS细胞系间的整体区别。另一方法是使用依赖于多个基因的转录标记来区别ES细胞系和iPS细胞系(Chin等,2009)。此外,多个基因组区域合起来的DNA甲基化水平对细胞为ES细胞还是iPS细胞具有预测性(Doi等,2009)。因此,本发明人评估了数据集中的转录标记和DNA甲基化标记,并对阈值进行了重优化,所述阈值将细胞系而不是它们的基因集分类为ES或iPS。本发明人证实了基因表达标记具有67%的准确性,这比仅凭偶然而预期的几率要好。然而,在本发明人的研究中,以前报道的DNA甲基化标记(Doi等,2009)未能正确地鉴定出任何iPS细胞系(图3D)。
然后,本发明人研究了来自数据集的甲基化标记或转录标记(表2)。使用以前报道的基因表达标记(Chin等,2009),本发明人测定了在两种研究中都显示出相同的影响方向性的分类(ES与iPS)基因的稳健的3.4倍富集,虽然仅有5个基因通过严格统计检验。因此,ES细胞系和iPS细胞系的平均基因表达谱间的差异在本研究和以前的研究(Chin等,2009)之间是保守的,但这一差异太微弱,不能准确地鉴定出细胞系为ES还是为iPS。
对于DNA甲基化标记,具有足够数据的iPS特异性差异甲基化区域(Doi等,2009)的三分之一在所述数据集中也为差异甲基化的,但12个区域中有7个表现出与以前的报道相反的趋势。重要的是,来自相同研究的成纤维细胞和iPS细胞间98%的差异在本研究中被证实具有相同的方向性,这表明iPS特异性差异甲基化区域一致性的缺乏不是用于DNA甲基化定位的不同方法带来的副作用(Doi等,2009)。因此,本发明人确定由Doi等在先进行的研究可能得到了高度变异的基因组区域,但所述基因组区域为偶然的差异甲基化,而不是真正的iPS特异性DNA甲基化缺陷。
表2A-表2B.对以前报道的iPS特异性DNA甲基化和基因表达的验证。DNA甲基化数据。对以前公开的将ES细胞与iPS细胞区分开的基因/基因组区域的验证。表11A-表11C为DNA甲基化数据(基于Doi等2009Nature Genetics,http://www.ncbi.nlm.nih.gov/pubmed/19881528)。表11D-表11F为基因表达数据(基于Chin等2009Cell Stem Cell,万维网网址:“ncbi.nlm.nih.gov/pubmed/19570518”)。
表2B:基因表达数据
最后,本发明人评估了是否能基于它们的DNA甲基化谱和/或基因表达谱使用19种ES细胞系和11种iPS细胞系的数据集来开发新的且更准确的用于区分ES细胞系和iPS细胞系的方法。为了使过度拟合训练数据(training data)或高估分类子的预测准确性的风险最小化,本发明人使用了严格的统计学习方法(stringent statistical learningapproach)(Hastie等,2001)。本发明人避开任何手动参数优化或监督特征选择(如果使用不正确的话,这些方法在膨胀预测准确性方面是很出名的)。具体而言,本发明人在(i)DNA甲基化数据、(ii)基因表达数据以及(iii)两者的结合上训练逻辑回归模型以及支持向量机,然后评估了训练分类子在测试案例(不包含于训练数据集中)上的性能。虽然支持向量机获得了90%的准确性(这实际上比随机预期的50%或63.3%高),分类子中没有一个能完全区分开ES细胞系和iPS细胞系(图3D)。
实施例6
用于人多能细胞系质量评价的记分卡
到目前为止,本发明人的结果表明人ES细胞系和iPS细胞系间存在DNA甲基化和转录变异(图1),并表明了这一变异限于基因的子集,还表明了在给定细胞系中涉及位点变异的知识对它的行为具有部分预测性(图2)。然而,似乎不存在能可靠地区别人ES细胞和iPS细胞的基因标记(图3)。来自这些数据的一个结论为在群体水平上iPS细胞系集体(collectively)类似于ES细胞系,并且因此iPS细胞从整体而言在相似的程度上具有人多能干细胞特征。然而,在使用有限量ES细胞系和/或iPS细胞系进行工作的个体研究人员水平上,对这些组的任何一个组内确定的遗传变异影响实验效果的程度进行测定是很重要的。
为了开发简单且有效的方法来为给定应用选择细胞系,本发明人使用统计检验来将特定细胞系中的表观遗传偏离和转录偏离提炼成能预测其行为的“记分卡”(图4A、图4B和表6)。为此,本发明人关注于区分于正常细胞系的细胞系特征。这些选择准则还可以用作排除某些细胞系的准则。
示例性实例将为如下:所述“记分卡”能帮助那些对巨噬细胞分化感兴趣的研究人员避免具有超甲基化CD14启动子的细胞系(图2E)。然而,可能存在许多不能用与“参比”数据集的转录和甲基化变异进行预测的细胞系特征。这些特征可能包含每个细胞系的个体遗传组成、不能通过监测DNA甲基化予以说明的表观遗传变异、或其它本发明人可能尚未想到的因素。为了克服这些限制,本发明人试图给所述“记分卡”增加测量,这可能会基于细胞系在给定分化范式中表现良好的可能性来提供选择细胞系的手段。
表6:对各ES/iPS细胞系与ES细胞参比图谱的偏离的总结。表6A为各ES/iPS细胞系的DNA甲基化偏离数据。表6B为各ES/iPS细胞系的基因表达偏离数据。对各列缩写的解释位于表6B结尾处。
表6B:
任何用于细胞系正向选择的合适方法应该具备如下优点:容易在短时间内进行、便宜、对在向尽可能多的不同谱系分化中的应用具有预测性。本发明人评估了给定细胞系的分化是否以相对无偏倚的方式开始,然后其天然分化倾向可对其在定向分化方案中的表现具有预测性。换句话说,本发明人评估了具有形成外胚层或神经谱系细胞的天然分化倾向的细胞系在例如运动神经元定向分化中是否还能最佳化地完成。为了评估这点,本发明人设计了用于多能细胞系分化倾向的简单、快速且便宜的分析,然后测定它是否能预测细胞系在定向分化下的行为(图5A)。
为了测量分化倾向,本发明人首先通过以下方式起始分化:对ES细胞系或iPS细胞系进行酶促传代,然后使它们在不含bFGF和人血浆蛋白粉的人ES培养基存在的情况下进行悬浮培养。在这一环境下将EB培养总共16天,然后收集以分离总RNA。使用NanostringnCounter系统对RNA进行分析,所述分析使用设计为包含有代表3个胚层以及特异性体细胞谱系(例如,神经谱系和造血谱系)的500种谱系特异性基因的标记基因集(表7)。nCounter系统与标准微阵列相比的优点在于其高度灵敏,测量的动态范围大(Geiss等,2008),以及处理简单、快速并且每个样品的成本低。在数据收集后,本发明人对2种生物复制的基因表达谱与从对照EB中来的“参比”测量集的基因表达谱进行统计学比较(表10)。最后,本发明人在差异表达t分数上进行了基因集富集分析(Nam和Kim,2008;Subramanian等,2005),以相对于对照“参比”EB来对细胞系特异性分化倾向进行定量。
表7:用来构建谱系记分卡的基因集注释。
为了评定和校准这一多能细胞“记分卡”的新阳性组件,本发明人起初使用所述记分卡来对19种低传代ES细胞系的基因表达进行监测,所述低传代细胞系在这一报告中用于其它分析(图5B、图10B和表8)。这一实验的结果表明,各细胞系在其向3个胚层中的每一个分化的倾向上表现出定量差异。例如,HUES8表现出内胚层分化的最大倾向,印证了以前的报道:这一细胞系在定向内胚层分化中表现良好(osafune等,2008)。这一结果还表明了HUES8为什么是进行定向内胚层分化中经常使用的细胞系。
与之不同,H1和H9在神经谱系分化上得到了高的“分数”(图5B),这表明它们在神经退行性研究或治疗上可能是出色的选择。事实上以前已报道,这些细胞系在运动神经元定向分化分析中表现良好(Hu等,2010)。虽然,本文所公开的本发明人的记分卡的初始用途在预测以往的效用方面是有效的,本发明人进一步验证了谱系记分卡的可重现性。为此,本发明人基于所述“记分卡”对细胞系进行选择,所述细胞系在特定谱系生产中表现相对良好或相对较差,然后评估了这些倾向是否为可重现性的,以及它们能否能通过独立分析进行验证。当本发明人对若干细胞系进行附加的、独立轮(independent round)的EB分化,然后对仅在离散(discrete)谱系中表达的5种基因(NES、TUBB3、KDR、ACTA2和AFP)的mRNA水平进行测量时,本发明人观测到各基因的RNA水平与由本文所公开的“记分卡”预测出的分化倾向具有很好的一致性(图11B)。另外,对这些分化实验的更多的定性评估通过如下方式进行:在粘附条件下铺EB,然后用特异性针对各种分化细胞类型(代表所有3个胚层)的抗体进行免疫染色。本发明人的记分卡再次为给定细胞系的分化行为提供了好的预测(图19和图20)。
本发明人的初始结果证实了简单的转录分析可预测出给定ES细胞系的可再现行为(reproducible behavior)。然后,本发明人评估了这一相同谱系“记分卡”是否能用于预测iPS细胞的行为。为此,本发明人选择了几种已充分表征过的iPS细胞系(Boulting等,共同提交),进行标准EB分化,收集RNA,使用Nanostring对所述RNA进行分析,并以“参比”ES细胞衍生的EB来对所得数据进行归一化。所述结果为用于选定iPS细胞系行为的谱系“记分卡”(图5C和图5D,以及图10C)。表9证实了用于预测给定多能干细胞系(例如,ES细胞系或iPS细胞系)的可再现性行为的谱系记分卡。
表9:谱系记分卡预测(表9A)和分化成运动神经元的效率(表9B)。
为了通过另一分析对分化“记分卡”进行独立验证,本发明人重复了对几种iPS细胞系所进行的分化,然后使用流式细胞仪来对表达内胚层特异性基因(AFP)的细胞的百分比进行分析(图10D)。再一次地,所述记分卡可准确地预测具有内胚层分化倾向的细胞系(图10D)。
为了进一步证实所述记分卡预测iPS细胞系行为的鲁棒性和可重现性,本发明人对各iPS细胞系进行分化至独立的5次,然后使用简单的转录分析来对获取的RNA进行分析(表11A和表11B)。重要的是,本发明人在由来自给定细胞系的各复制生成的记分卡预测之间观测到了出色的整体相关性(Pearson’s r=0.82)。
表11:谱系记分卡分析的一致性和可重现性
表11B
如果本发明人的“记分卡”能预测出给定细胞系在定向分化分析中将如何表现,其在多能细胞分化倾向上的效用将大大增加。本发明人评估了具有天然向给定谱系分化的倾向的细胞系在定向分化策略中是否还能表现良好,所述分化策略针对生成来自该谱系的特定细胞类型。本发明人对此进行了评估,以测定本文所公开的“记分卡”是否在为任何应用所进行的细胞系选择上都具有广泛的效用,其中,将人ES细胞或iPS细胞用于定向分化。为了对此进行评估,本发明人评估了所述记分卡是否能预测效率,当使来自大的iPS细胞系群的各细胞系经历稳定的定向分化方案时,其以所述效率生产出运动神经元(Wichterle等,2002)(Di Giorgio等,2008)(Boulting等,共同提交)。
简单地说,使各iPS细胞系经历运动神经元定向分化,并通过细胞的自动定量来对运动神经元的生产效率进行监测,所述细胞对运动神经元特异性转录因子ISL1/2和HB9具有免疫反应性(Boulting等共同提交中的图6A)。在这一上下文中,这些定向分化数据为测定“记分卡”预测功效提供了真实测试集。在对2种数据集进行第一次比较之前,基因的同一性就已被最后确定(所述基因的表达通过简单的转录分析进行监测),并且没有对记分卡的参数进行回顾性优化以改善拟合。当本发明人将对给定细胞系的神经谱系分化倾向的评价(所述评价由“记分卡”做出)与实际效率(各细胞系以所述效率生产运动神经元)进行比较时,本发明人观测到了显著地高度相关性(图6B)(对于ISL1,Pearson’s r=0.85;对于HB9,r=0.86)。这一初始结果表明,测量给定细胞系的分化倾向可用于预测定向分化方案中多能干细胞的行为。然而,如果所述“记分卡”仅在对细胞系向任何类型的细胞分化的整体抵抗(recalcitrance)或服从(amenability)中有用,它可以由细胞系生成运动神经元的效率来测定。
为了测定记分卡预测对于给定谱系的特异性,本发明人将运动神经元分化效率与记分卡预测(向3个胚层中的每一种分化的倾向)相关联(图6C和图11A)。本发明人证实了,对外胚层分化倾向的评价与运动神经元产生具有出色的相关性(对于ISL1,Pearson’s r=0.83;对于HB9,r=0.82)。相反,细胞系产生运动神经元的效率与其预测的中胚层分化倾向(对于ISL1,Pearson’s r=0.48;对于HB9,r=0.44)或内胚层分化倾向(对于ISL1,Pearson’s r=0.23;对于HB9,r=0.26)之间的相关性要弱得多。总而言之,本发明人已清楚地证实了如下快速分析:该分析可由本领域技术人员在任何实验室中进行,从而为给定应用优化地选择iPS细胞系或ES细胞系。
实施例7
进行多能细胞质量和效用的高通量评价
本发明人描述了可用于人ES细胞系和iPS细胞系质量评估的3种基因组分析,并通过建立在低传代人ES细胞系每次测量中存在的变异的“参比图谱”来对这些分析进行校准。本发明人已证明使用本文所公开的分析来设计起始“记分卡”(发明人已进行说明)可预测任何多能细胞系的分化倾向。如图7A中所示输出记分卡,所述记分卡总结了任何新ES细胞系或iPS细胞系中表观遗传偏离和转录偏离的数量及其同一性(identity),还提供了对细胞系分化倾向的系统评价。为了增加效用以及将对多能干细胞系的表征放到本领域的任何普通研究人员都能够实现的范围内,本发明人再次访问起始记分卡的关键部分,并尝试找到简化分析和进一步降低成本的机会。
首先,本发明人评估了以下内容:在不影响记分卡的准确度的情况下,所有3种分析是否严格需要,或者是否可以省略DNA甲基化分析、基因表达分析或定量分化分析。本发明人的数据清楚地指向了所述3种分析的重要性:不同iPS细胞系的等级与另一分析的结果紧密相关(图7B),在这种意义上,没有哪个分析是多余的。然而,可以通过利用DNA甲基化缺陷偏向于少量高度易感基因(图2A)来减少DNA甲基化分析的成本及其复杂性。基于发明人的数据集,本发明人通过对ES细胞中仅有10%的变异最大基因进行监测,检测到iPS细胞系中80%的DNA甲基化偏离(图7C)。关注于~3,000个变异最大的基因(加上另外的~1,000个手动选择的基因,即使为很罕见的缺陷也应进行监测的基因)使得启动子区域的数量完全在商业化表观遗传基因分型分析的范围内(Bibikova等,2009),这可通过微阵列核心设备得以广泛使用。
相反,对于基因表达,不能在仍然捕获大量iPS特异性偏离的同时,只关注少量的ES细胞可变基因(图12)。然而,本发明人已证明这并非实践上的限制。对本领域普通技术人员而言,用于监测转录的商购微阵列可广泛提供、易于使用且相对经济有效。
作为附加的测量,本发明人旨在减少其进行定量分化分析时所花的时间总长。因此,缩短分析的持续时间是有利的,这是因为降低了得到结果的时间,在恒温箱空间和对培养基变化的需要方面而言,也使后勤成本最小。本发明人对定量分化分析进行了优化,因此它足够灵敏到使用直接分离自未分化的多能细胞系的RNA来估算分化倾向,这最有可能通过在另外的自我更新培养中对低水平细胞分化进行检测。
为了评估缩短定量分化分析持续时间的影响,本发明人对于来自自我更新条件下的每个ES细胞系和iPS细胞系的总RNA进行了纯化,使用Nanostring进行了转录分析,然后为这些ES细胞系和iPS细胞系构建了新“记分卡”(图7D)。有趣的是,这一新ES/iPS记分卡和原来的EB记分卡(“r”在0.59和0.82之间)之间存在一些有限的相关性(图7D),这表明使用多能细胞系自身表达的RNA可得到一些合理的预测。令人意外的是,相比使用从经历了16天分化的EB中而来的RNA所生成的记分卡,用未分化细胞得到的预测的动态范围实际上较低。因此,虽然可对来自多能干细胞系的RNA进行分析,但它会减少分析的鲁棒性。作为替代,本发明评估了EB分析的持续时间是否能从16天减少至7天。在这种情况下,本发明人证明了在4种代表性iPS细胞系上的2种分析之间具有出色的一致性(Pearson’s r>0.9),这表明了在不危害其准确性的情况下可以减少分化分析的持续时间。
实施例8
在本发明人对几个传代间以及独立实验室间的相同多能干细胞系进行比较时,本发明人还研究了由“记分卡”得到的结果所保持的鲁棒性和可重现性。因为本发明人的用于分析DNA甲基化和转录的方法已被证明是可重现的(Gu等,2010;Irizarry等,2005)并因为本发明人已对这些测量随传代的变化进行了研究(数据未显示),本发明人关注于定量分化分析的可重现性。因为在EB中ES细胞的分化会对诸如物理处理、培养基更新和塑料制品等参数的差异敏感,本发明了评估了由分化分析得到的结果对另一实验室中和不同的研究人员的细胞系行为的可预测性。
因此,本发明人对由2个不同研究人员在2个不同实验室中培养了2代的一个细胞系(hiPS 17b)进行了系统比较,还进行了各自独立的EB分析。当相同研究人员在相同实验室进行所述分析时,谱系记分卡预测之间的相关性低于上面观测到的r=0.82。然而,本发明人证明了被认为是可重现的相关(r=0.59)。因此,对于最优的细胞系选择,本发明人建议每个实验室应该使用本文所述的组合分析,在他们自己的培养条件下为他们自己的细胞系生成记分卡。当细胞系为新的亚克隆或经受了多次传代时,为了维持对分化倾向的准确评价,本发明人建议重复记分卡分析,因为这是核型分析的习惯作法。
实施例9
在本文的研究中,本发明人利用几种基因组分析来对在大的多能细胞系同声群中所观测到的变异进行研究,并开发出可用于对已存在的或新衍生的细胞系(ES细胞和iPS细胞)进行分类并对它们的分化倾向进行预测的记分卡。由于人干细胞领域的几项发展,本发明人普遍观测到的变异的“参比水平”与本文所公开的“记分卡”的开发是特别相关的。
直到最近,只有几种人多能细胞系广泛用于生物医学研究。对此,研究者主要依赖于这些易获取且已良好表征的细胞系(Cowan等,2004;Mitalipova等,2003;Thomson等,1998)。美国给人ES细胞研究施加的资金限制进一步限制了对可用细胞系的选择。结果,研究人员简单地给他们感兴趣的应用使用他们能得到的任何细胞系,而几乎不需要诊断,所述诊断能预测给定细胞系在给定分析中如何表现。
然而,很多实验室对人ES细胞系的继续衍生(Chen等,2009)和US对资金限制的解除大大增加了研究人员可选的ES细胞系的数量。另外,已经清楚并不是所有的人ES细胞系都同样地适用于每个目的(Osafune等,2008)。这表明任何新的研究项目都应该对最适用于感兴趣的应用的细胞系进行精心且知情的选择。
将来自患者的体细胞重编程为iPS细胞的因子的发现使得研究机构可用的和需要的多能细胞系的数量有另一个拐点(inflection)。虽然研究人员为他们感兴趣的应用收集了已存在的细胞系或衍生出新的细胞系,关于如何选择最适当的细胞系几乎没有信息或指导。本文中,本发明人提供了如下清晰的路径来指导研究人员:从患者的样品开始,到完全重编程的iPS细胞,再到选定的可操纵细胞系集,所述细胞系能以合理的规模来用于疾病建模。
在此,本发明人展示出准确预测人多能细胞系的倾向的方法,由此使得研究人员能选择出在他们给定的应用中表现最佳的细胞系。重要的是,使用本文所公开的用于多能细胞系质量和效用的“记分卡”可易于成规模地表征任何数量的多能细胞系,例如,少至约5个多能干细胞系到成十上百的多能干细胞系。
总体来讲,本文所公开的记分卡报告了给定多能细胞系的状态和行为的不同特征,所述多能细胞系的状态和行为是研究人员在向将其用于任何特定应用中投入大量的时间和资源之前希望了解的。例如,本文所公开的记分卡纳入有所述多能细胞系的基因表达谱,使研究人员确定他们所选的细胞系转录适当水平的、一般在多能细胞中表达的基因(图1)。在一些实施方式中,这些基因表达谱还可以用于对体细胞基因表达标记进行测量,以确保感兴趣的细胞系没有被错误地处理,以及一些细胞已分化成为多能细胞和分化细胞的混合群。
对于关心开发细胞疗法的研究人员,关键在于证明为临床开发所提出的多能细胞系适合于从制备到制备出来(from preparation to preparation)的“标准”准则,并且不表达异常水平的肿瘤抑制物或致癌基因。因此,在治疗用途中向受试者给予多能干细胞或它们的后代之前,本发明人生产和使用的本文所公开的“记分卡”对这些重要的安全性测量是很有用的。
在一些实施方式中,本发明人的记分卡还包含对DNA甲基化水平的剖析,以检测细胞系间的未反映在未分化细胞的转录谱中的表观遗传变异(图1和图2)。在此,本发明人证明,可将对这一变异大体上的了解结合感兴趣的给定细胞系中DNA甲基化的具体测量来用于避免或逆向选择出其中表观遗传谱可能阻止其向感兴趣谱系进行分化的细胞系(图2E),或指出多能干细胞系不表达异常水平的肿瘤抑制物或致癌基因。
为记分卡提供多能细胞系倾向信息的分析之一为新型的定量分化分析。这一定量分化分析将对特定谱系中表达的基因的转录测量用作计数器,以对异种EB中各谱系细胞类型的发生率(prevalence)进行定量。
为了全面校准和验证“记分卡”以供人iPS细胞系和ES细胞系使用,本发明人为至少19种ES细胞系和11种iPS细胞系的基因组水平的转录和DNA甲基化建立了“参比图谱”。为了确保单个“记分卡”可与人ES细胞和iPS细胞均相关,本发明人对这两种多能细胞类型的两种测量进行了全面的统计比较。这些比较的结果证实本发明人的“记分卡”与两种细胞类型均高度相关。重要的是,还通过实施所述“记分卡”对这些统计结果进行了功能性确证,从而在定向内胚层分化分析中预测出许多人ES细胞系的过往行为,并高度准确地预测出11种iPS细胞系分化成运动神经元的效率(图6和图7)。
顺便说一句,本发明人在细胞系间得出的数据集和统计比较结果还能使本发明人评估ES细胞和iPS细胞系是否彼此不同。不同于以前的报道(Doi等,2009;Stadtfeld等,2010b),本文中本发明人所分析的30种细胞系提供了具有充分“数字力量”的数据集,从而得出这一问题的统计信息答案。使用稳健统计学习方法,本发明人评价了以前发表的iPS特异性标记,并推导出分类子,所述分类子能以高于随机的准确性来区别这一研究中所用的ES细胞系和iPS细胞系(图3D)。从本发明人的分析中了解到,没有单一的基团座或基因标记可准确地区别所有ES细胞系与所有iPS细胞系。换言之,表观遗传差异和转录差异可从一般的iPS细胞系中区别出一般的ES细胞系,但这些差异不足以得出关于值得考虑的单个ES细胞系或iPS细胞系的特征的结论。换句话说,本发明人测定出,一些ES细胞系比其它细胞系更适用于给定应用,对于iPS细胞也如此。根据这些研究,本发明人测定出目前的重编程方法具有令人惊讶的鲁棒性。
本发明人还测定出相比于试图给所有需要和应用找到最优的ES细胞系或完美的重编程方案,似乎需要的是能向给定应用匹配合适细胞系的快速分析。因此,将本发明所公开的方法、系统和“记分卡”用于测定和预测人多能细胞系的倾向,以使得可匹配和选择具有期望倾向的适当多能干细胞以供特定的下游应用所用。
本发明人在本文中示出了用于多能细胞的“记分卡”,同时本发明人还示出了多能表观基因组和转录组的“参比图谱”,所述表观基因组和转录组为深入了解多能干细胞的表观遗传和转录规则提供了有价值的生物学来源。例如,本发明人证明,ES细胞系的表观遗传变异与DNA序列DNA序列基序(motifs)高度相关,所述DNA序列基序此前已被证明能使基因组区域易于受DNA甲基化影响。
本发明人还令人惊讶地证明了转录变异最大基因分类中,在细胞信号中发挥功能的基因的基团表达的明显富集。这表明,各多能细胞系能以不同的方式来适应体外培养的选择压力。因此,基于这一数据,还将ES细胞系用于为研究细胞竞争的分支和对生长条件的表观遗传适应提供模型系统。最后,本发明人还证明了一些多能干细胞系在CD14启动子上具有可变的甲基化水平,这表明发生在多能干细胞系中的启动子超甲基化是使发育途径中主要基因沉默的手段,并能用于发育研究以确定对在人胚胎发育期间“看门基因”(Hemberger等,2009)的表观遗传规则的另一见解。
总而言之,本发明人对许多人多能细胞系的DNA甲基化、转录和分化倾向进行了分析和测量,并使得开发出了简单的系统、方法和分析,任何本领域普通研究人员可利用所述系统、方法和分析来生成“记分卡”,以预测任何新的或已存在的多能细胞系的行为(图7E)。目前,在没有本发明的情况下,在获得已存在的多能干细胞系或生成新的多能干细胞系后,研究人员将进行很多耗时、耗力且昂贵的分析,所述分析包括对特异性抗原的免疫染色和畸胎瘤生成。虽然这件分析能为给定细胞系的多能性提供一些把握,但它们不能预测多能细胞系是否非常适合于给定应用。相反,本文所公开的当前方法、试剂盒、系统、分析和记分卡能用于以迅速、高效且有效的方式预测多能干细胞的行为,并不为时间和劳动密集型,且相对便宜。
因此,使用本文所公开的方法、试剂盒、系统、分析和记分卡,对例如肌萎缩性侧索硬化(ALS)的疾病建模感兴趣的研究者可对他们感兴趣的多能干细胞进行分析,并进行如本文所公开的定量分化分析(图5D)。然后,研究者能选择出对于神经谱系呈现出正常分化倾向至高分化倾向的多能干细胞系来进一步研究。接下来,可对选定的多能细胞系进行DNA甲基化分析和/或转录剖析。因此,使用本文所公开的方法、系统和记分卡,研究人员可在参数变异方面对细胞系进行检查,所述变异能非常好地预测出多能干细胞系在它们的特定期望应用中的效用(图7E)。
本发明人在本文中公开的方法、分析、记分卡和试剂盒能使研究人员将最耗时且昂贵的分析(畸胎瘤形成)推迟;仅在当所述“记分卡”已预测出所选定的细胞系很可能会高效地分化成运动神经元或其它感兴趣的细胞,而不会表现出其它严重限制(例如,致癌基因的表达或肿瘤抑制基因的抑制等)的时候,才在特定多能干细胞系上开始分析。将来,如果能将本文所公开的方法、分析、记分卡用于准确预测具有形成畸胎瘤的潜能的多能干细胞系,使用本文所公开的方法、分析、记分卡和试剂盒使得能够完全省去畸胎瘤生成分析。
综上所述,人多能细胞和从选定患者群中产生人iPS细胞的重编程方法的发现使研究者对研究和治疗人类疾病的看法发生了翻天覆地的变化。然而,如果人多能干细胞和iPS细胞的用途为被高效且有效地用于研究以及细胞疗法和治疗用途以改善患者的生活,当务之急是建立质量评价和验证方法,例如本文所公开的方法、分析、系统和“记分卡”,从而对用于研究、药物开发和毒性分析、以及特定治疗理念、或治疗给定指征(indication)或疾病的多能细胞系的选择进行精简、标准化以及优化。
参考文献
以引用的方式将所述参考文献的内容整体并入本文。
Adewumi,O.,Aflatoonian,B.,Ahrlund-Richter,L.,Amit,M.,Andrews,P.W.,Beighton,G.,Bello,P.A.,Benvenisty,N.,Berry,L.S.,Bevan,S.,et al.(2007).Characterization of human embryonic stem cell lines by the InternationalStem Cell Initiative.Nat Biotechnol 25,803-816
Allison,D.B.,Cui,X.,Page,G.P.,and Sabripour,M.(2006).Microarray dataanalysis:from disarray to consolidation and consensus.Nat Rev Genet 7,55-65.
Bibikova,M.,Le,J.,Barnes,B.,Saedinia-Melnyk,S.,Zhou,L.,Shen,R.,andGunderson,K.L.(2009).Genome-wide DNA methylation profiling using Infiniumassay.Epigenomics 1,177-200.
Bird,A.(2002).DNA methylation patterns and epigenetic memory.GenesDev 16,6-21.
Bock,C.,Halachev,K.,Büch,J.,and Lengauer,T.(2009).EpiGRAPH:User-friendly software for statistical analysis and prediction of(epi-)genomicdata.Genome Biol 10,R14.
Bock,C.,Paulsen,M.,Tierling,S.,Mikeska,T.,Lengauer,T.,and Walter,J.(2006).CpG island methylation in human lymphocytes is highly correlated withDNA sequence,repeats,and predicted DNA structure.PLoS Genet 2,e26.
Borowiak,M.,Maehr,R.,Chen,S.,Chen,A.E.,Tang,W.,Fox,J.L.,Schreiber,S.L.,and Melton,D.A.(2009).Small molecules efficiently direct endodermaldifferentiation of mouse and human embryonic stem cells.Cell Stem Cell 4,348-358.
Carvajal-Vergara,X.,Sevilla,A.,D’Souza,S.L.,Ang,Y.S.,Schaniel,C.,Lee,D.F.,Yang,L.,Kaplan,A.D.,Adler,E.D.,Rozov,R.,et al.(2010).Patient-specificinduced pluripotent stem-cell-derived models of LEOPARD syndrome.Nature 465,808-812.
Chen,A.E.,Egli,D.,Niakan,K.,Deng,J.,Akutsu,H.,Yamaki,M.,Cowan,C.,Fitz-Gerald,C.,Zhang,K.,Melton,D.A.,et al.(2009).Optimal timing of inner cellmass isolation increases the efficiency of human embryonic stem cellderivation and allows generation of sibling cell lines.Cell stem cell 4,103-106.
Chin,M.H.,Mason,M.J.,Xie,W.,Volinia,S.,Singer,M.,Peterson,C.,Ambartsumyan,G.,Aimiuwu.O.,Richter,L.,Zhang,J.,et al.(2009).Inducedpluripotent stem cells and embryonic stem cells are distinguished by geneexpression signatures.Cell Stem Cell 5,111-123.
Colman,A.,and Dreesen,O.(2009).Pluripotent stem cells and diseasemodeling.Cell Stem Cell 5,244-247.Cowan,C.A.,Klimanskaya,I.,McMahon,J.,Atienza,J.,Witmyer,J.,Zucker,J.P.,Wang,S.,Morton,C.C.,McMahon,A.P.,Powers,D.,et al.(2004).Derivation of embryonic stem-cell lines from human blastocysts.NEngl J Med 350,1353-1356.
Daley,G.(2010).Straight talk with...George Daley.Interview by ElieDolgin.Nat Med 16,624.
Di Giorgio,F.P.,Boulting,G.L.,Bobrowicz,S.,and Eggan,K.C.(2008).Humanembryonic stem cell-derived motor neurons are sensitive to the toxic effectof glial cells carrying an ALS-causing mutation.Cell Stem Cell 3,637-648.
Dimos,J.T.,Rodolfa,K.T.,Niakan,K.K.,Weisenthal,L.M.,Mitsumoto,H.,Chung,W.,Croft,G.F.,Saphier.G.,Leibel,R.,Goland,R.,et al.(2008).Inducedpluripotent stem cells generated from patients with ALS can be differentiatedinto motor neurons.Science 321,1218-1221.
Doi,A.,Park,I.H.,Wen,B.,Murakami,P.,Aryee,M.J.,Irizarry,R.,Herb,B.,Ladd-Acosta,C.,Rho,J.,Loewer,S.,et al.(2009).Differential methylation oftissue-and cancer-specific CpG island shores distinguishes human inducedpluripotent stem cells,embryonic stem cells and fibroblasts.Nat Genet.
Ebert,A.D.,Yu,J.,Rose,F.F.,Jr.,Mattis,V.B.,Lorson,C.L.,Thomson,J.A.,and Svendsen,C.N.(2009).Induced pluripotent stem cells from a spinal muscularatrophy patient.Nature 457,277-280.
Eiges,R.,Urbach,A.,Malcov,M.,Frumkin,T.,Schwartz,T.,Amit,A.,Yaron,Y.,Fden,A.,Yanuka,O.,Benvenisty,N.,et al.(2007).Developmental study of fragile Xsyndrome using human embryonic stem cells derived from preimplantationgenetically diagnosed embryos.Ccll Stem Cell 1,568-577.
ENCODE Project Consortium(2007).Identification and analysis offunctional elements in 1%of the human genome by the ENCODE pilotproject.Nature 447,799-816.
Geiss,G.K.,Bumgarner,R.E.,Birditt,B.,Dahl,T.,Dowidar,N.,Dunaway,D.L.,Fell,H.P.,Ferree,S.,George,R.D.,Grogan,T.,et al.(2008).Direct multiplexedmeasurement of gene expression with color-coded probe pairs.NatureBiotechnology 26,317-325.
Gentleman,R.C.,Carey,V.J.,Bates,D.M.,Bolstad,B.,Dettling,M.,Dudoit,S.,Ellis,B.,Gautier,L.,Ge,Y.,Gentry,J.,et al.(2004).Bioconductor:opensoftware development for computational biology and bioinformatics.Genome Biol5,R80.
Gu,H.,Bock,C.,Mikkelsen,T.S.,Jager,N.,Smith,Z.D.,Tomazou,E.,Gnirke,A.,Lander,E.S.,and Meissner,(2010).Genome-scale DNA methylation mapping ofclinical samples at single-nucleotide resolution.Nat Methods 7,133-136.
Hanna,J.,Cheng,A.W.,Saha,K.,Kim,J.,Lengner,C.J.,Soldner,F.,Cassady,J.P.,Muffat,J.,Carey,B.W.,and Jaenisch.R.(2010).Human embryonic stem cellswith biological and epigenetic characteristics similar to those of mouseESCs.Proc Natl Acad Sci U S A 107,9222-9227.
Hastie,T.,Tibshirani,R.,and Friedman,J.H.(2001).The elements ofstatistical leaarning:data mining,inference,and prediction(New York,Springer).
Hawkins,R.D.,Hon,G.C.,Lee,L.K.,Ngo,Q.,Lister,R.,Pelizzola,M.,Edsall,L.E.,Kuan,S.,Luu,Y.,Klugman,S.,et al.(2010).Distinct epigenomic landscapes ofpluripotent and lineage-committed human cells.Cell StemCell 6,479-491.
Hemberger,M.,Dean,W.,and Reik,W.(2009).Epigenetic dynamics of stemcells and cell lineage commitment:digging Waddington’s canal.Nature ReviewsMolecular Cell Biology 10,526-537.
Hu,B.Y.,Weick,J.P.,Yu,J.,Ma,L.X.,Zhang,X.Q.,Thomson,J.A.,and Zhang,S.C.(2010).Neural differentiation of human induced pluripotent stem cellsfollows developmental principles but with variable potency.Proc Natl Acad SciU S A 107,4335-4340.
Huang,D.W.,Sherman,B.T.,Tan,Q.,Kir,J.,Liu,D.,Bryant,D.,Guo,Y.,Stephens,R.,Baseler,M.W.,Lane,H.C.,et al.(2007).DAVID BioinformaticsResources:expanded annotation database and novel algorithms to better extractbiology from large gene lists.Nucleic Acids Res 35,W169-175.
Hubbard,T.J.,Aken,B.L.,Ayling,S.,Ballester,B.,Beal,K.,Bragin,E.,Brent,S.,Chen,Y.,Clapham,P.,Clarke,L.,et al.(2009).Ensembl 2009.Nucleic AcidsRes 37,D690-697.
Huber,W.,yon Heydebreck.A.,Sultmann,H.,Poustka,A.,and Vingron.M.(2002).Variance stabilization applied to microarray data calibration and tothe quantification of differential expression.Bioinformatics 18 Suppl 1,S96-104.
Irizarry,R.A.,Warren,D.,Spencer.F.,Kim,I.F.,Biswal,S.,Frank,B.C.,Gabrielson,E.,Garcia,J.G.,Geoghegan,J.,Germino.G.,et al.(2005).Multiple-laboratory comparison of microarray platforms.Nature Methods 2,345-350.
Kauffmann,A.,Gentleman,R.,and Huber,W.(2009).arrayQualityMetrics--abioconductor package for quality assessment of microarray data.Bioinformatics25,415-416.
Keshet,I.,Schlesinger,Y.,Farkash,S.,Rand,E.,Hecht,M.,Segal,E.,Pikarski,E.,Young,R.A.,Niveleau,A.,Cedar,H.,et al.(2006).Evidence for aninstructive mechanism of de novo methylation in cancer cells.Nat Genet 38,149-153.
Laird,P.W.(2010).Principles and challenges of genome-wide DNAmethylation analysis.Nat Rev Genet 11,191-203.
Lee,G.,Papapetrou,E.P.,Kim,H.,Chambers,S.M.,Tomishima,M.J.,Fasano,C.A.,Ganat,Y.M.,Menon,J.,Shimizu,F.,Viale,A.,et al.(2009).Modellingpathogenesis and treatment of familial dysautonomia using patient-specificiPSCs.Nature.
Lengner,C.J.,Gimelbrant,A.A.,Erwin,J.A.,Cheng,A.W.,Guenther,M.G.,Welstead,G.G.,Alagappan,R.,Frampton,G.M.,Xu,P.,Muffat,J.,et al.(2010).Derivation of pre-X inactivation human embryonic stem cells underphysiological oxygen concentrations.Cell 141,872-883.
Li,H.,Ruan,J.,and Durbin,R.(2008).Mapping short DNA sequencing readsand calling variants using mapping quality scores.Genome Res 18,1851-1858.
Lister,R.,Pelizzola,M.,Dowen,R.H.,Hawkins,R.D.,Hon,G.,Tonti-Filippini,J.,Nery,J.R.,Lee,L.,Ye,Z.,Ngo,Q.M.,et al.(2009).Human DNAmethylomes at base resolution show widespread epigenomic differences.Nature462,315-322.
Liu,L.,Luo,G.Z.,Yang,W.,Zhao,X.,Zheng,Q.,Lv,Z.,Li,W.,Wu,H.J.,Wang,L.,Wang,X.J.,et al.(2010).Activation of the imprinted Dlk1-Dio3 regioncorrelates with pluripotency levels of mouse stem cells.J Biol Chem 285,19483-19490.
Lu,R.,Markowetz,F.,Unwin,R.D.,Leek,J.T.,Airoldi,E.M.,MacArthur,B.D.,Lachmann,A.,Rozov,R.,Ma’ayan,A.,Boyer,L.A.,et al.(2009).Systems-level dynamicanalyses of fate change in murine embryonic stem cells.Nature 462,358-362.
Maherali,N.,and Hochedlinger,K.(2008).Guidelines and techniques forthe generation of induced pluripotent stem cells.Cell Stem Cell 3,595-605.
Meissner,A.,Mikkelsen,T.S.,Gu,H.,Wernig,M.,Hanna,J.,Sivachenko,A.,Zhang,X.,Bernstein,B.E.,Nusbaum,C.,Jaffe,D.B.,et al.(2008).Genome-scale DNAmethylation maps of pluripotent and differentiated cells.Nature 454,766-770.
Mikkelsen,T.S.,Hanna,J.,Zhang,X.,Ku,M.,Wernig,M.,Schorderet,P.,Bernstein,B.E.,Jaenisch,R.,Lander,E.S.,and Meissner,A.(2008).Dissectingdirect reprogramming through integrative genomic analysis.Nature 454,49-55.
Mikkelsen,T.S.,Ku,M.,Jaffe,D.B.,Issac,B.,Lieberman,E.,Giannoukos,G.,Alvarez,P.,Brockman,W.,Kim,T.K.,Koche,R.P.,et al.(2007).Genome-wide maps ofchromatin state in pluripotent and lineage-committed cells.Nature 448,553-560.
Mitalipova,M.,Calhoun,J.,Shin,S.,Wininger,D.,Schulz,T.,Noggle,S.,Venable,A.,Lyons,I.,Robins,A.,and Stice,S.(2003).Human embryonic stem celllines derived from discardedembryos.Stem Cells 21,521-526.
Müller,F.J.,Laurent,L.C.,Kostka,D.,Ulitsky,1.,Williams,R.,Lu,C.,Park,i.H.,Rao,M.S.,Shamir,R.,Schwartz,P.H.,et al.(2008).Regulatory networks definephenotypic classes of human stem cell lines.Nature 455,401-405.
Nam,D.,and Kim,S.Y.(2008).Gene-set approach for expression patternanalysis.Briefings in Bioinformatics 9,189-197.
Narva,E.,Autio,R.,Rahkonen,N.,Kong,L.,Harrison,N.,Kitsberg,D.,Borghese,L.,Itskovitz-Eldor,J.,Rasool,O.,Dvorak,P.,et al.(2010).High-resolution DNA analysis of human embryonic stem cell lines reveals culture-induced copy number changes and loss of heterozygosity.Nat Biotechnol.
Osafune,K.,Caron,L.,Borowiak,M.,Martinez,R.J.,Fitz-Gerald,C.S.,Sato,Y.,Cowan,C.A.,Chien,K.R.,and Melton,D.A.(2008).Marked differences indifferentiation propensity among human embryonic stem cell lines.NatBiotechnol 26,313-315.
Park,I.H.,Arora,N.,Huo,H.,Maherali,N.,Ahfeldt,T.,Shimamura,A.,Lensch,M.W.,Cowan.C.,Hochedlinger,K.,and Daley,G.Q.(2008a).Disease-specificinducedpluripotent stem cells.Cell 134,877-886.
Park,1.H.,Zhao,R.,West,J.A.,Yabuuchi,A.,Huo,H.,Ince,T.A.,Lerou,P.H.,Lensch,M.W.,and Daley,G.Q.(2008b).Reprogramming of human somatic cells topluripotency with defined factors.Nature 451,141-146.
Reik,W.(2007).Stability and flexibility of epigenetic gene regulationin mammalian development.Nature 447,425-432.
Rossant,J.(2008).Stem cells and early lineage development.Cell 132,527-531.
Smith,Z.D.,Gu,H.,Bock,C.,Gnirke,A.,and Meissner,A.(2009).High-throughput bisulfite sequencing in mammalian genomes.Methods 48,226-232.
Smyth,G.K.(2005).Limma:linear models for microarray data.InBioinformatics and Computational Biology Solutions using R and Bioconductor,R.Gentleman,V.Carey,S.Dudoit,R.Irizarry,and W.Huber,eds.(New York,Springer),pp.397-420.
Stadtfeld,M.,Apostolou,E.,Akutsu,H.,Fukuda,A.,Follett,P.,Natesan,S.,Kono,T.,Shioda,T.,and Hochedlinger,K.(2010a).Aberrant silencing of imprintedgenes on chromosome 12qF1 in mouse induced pluripotent stem cells.Nature.
Stadtfeld,M.,Apostolou,E.,Akutsu,H.,Fukuda,A.,Follett,P.,Natesan,S.,Kono,T.,Shioda,T.,and Hochedlinger,K.(2010b).Aberrant silencing of imprintedgenes on chromosome 12qF1 in mouse induced pluripotent stem cells.Nature 465,175-181.
Storey,J.D.,and Tibshirani,R.(2003).Statistical significance forgenomewide studies.Proc Natl Acad Sci U S A 100,9440-9445.
Subramanian,A.,Tamayo,P.,Mootha,V.K.,Mukhetjee,S.,Ebert,B.L.,Gillette,M.A.,Paulovich,A.,Pomeroy,S.L.,Golub,T.R.,Lander,E.S.,et al.(2005).Gene set enrichment analysis:a knowledge-based approach for interpretinggenome-wide expression profiles.Proceedings of the National Academy ofSciences of the United States of America 102,15545-15550.
Takahashi,K.,Tanabe,K.,Ohnuki,M.,Narita,M.,Ichisaka,T.,Tomoda,K.,andYamanaka,S.(2007).Induction of pluripotent stem cells from adult humanfibroblasts by defined factors.Cell 131,861-872.
Takahashi,K.,and Yamanaka,S.(2006).Induction o1 pluripotent stemcells from mouse embryonic and adult fibroblast cultures by definedfactors.Cell 126,663-676.
Thomson,J.A.,Itskovitz-Eldor,J.,Shapiro,S.S.,Waknitz,M.A.,Swiergiel,J.J.,Marshall,V.S.,and Jones,J.M.(1998).Embryonic stem cell lines derivedfrom human blastocysts.Science 282,1145-1147.
Wichterle,H.,Lieberam,I.,Porter,J.A.,and Jessell,T.M.(2002).Directeddifferentiation of embryonic stem cells into motor neurons.Cell 110,385-397.
Yu,J.,Vodyanik,M.A.,Smuga-Otto,K.,Antosiewicz-Bourget,J.,Frane,J.L.,Tian,S.,Nie,J.,Jonsdottir,G.A.,Ruotti,V.,Stewart,R.,et al.(2007).Inducedpluripotent stem cell lines derived from human somatic cells.Science 318,1917-1920.
长表格
本申请包含11个长表格:表3、表4、表5、表8、表10、表12A、表12B、表12C、表13A、表13B和表14。可从USPTO网站上获得所述表格(表3、表4、表5、表8、表10、表12A、表12B、表12C、表13A、表13B和表14)的电子形式拷贝。根据37CFR 1.19(b)(3),所述表格的电子拷贝也可在请求并支付费用后从USPTO获得。

Claims (33)

1.一种用于对细胞进行表征的组合物,所述组合物包含寡核苷酸或寡核苷酸对,所述寡核苷酸或寡核苷酸对扩增谱系标志物集的mRNA或cDNA,其中,所述谱系标志物集包含至少一种中胚层谱系标志物、至少一种内胚层谱系标志物和至少一种外胚层谱系标志物,其中,
所述中胚层谱系标志物选自于:CD34、DLL1、HHEX、INHBA、LEF1、SRF、T、TWIST1、ADIPOQ、MME、KIT、ITGAL、ITGAM、ITGAX、TNFRSF1A、ANPEP、SDC1、CDH5、MCAM、FUT4、NGFR、ITGB1、PECAM1、CDH1、CDH2、CD36、CD4、CD44、ITGA4、ITGA6、ITGAV、ICAM1、NCAM1、ITGB3、CEACAM1、THY1、ABCG2、KDR、GATA3、GATA4、MYOD1、MYOG、NES、NOTCH1、SPI1和STAT3;
所述外胚层谱系标志物选自于:NCAM1、EN1、FGFR2、GATA2、GATA3、HAND1、MNX1、NEFL、NES、NOG、OTX2、PAX3、PAX6、PAX7、SNAI2、SOX10、SOX9、TDGF、APOE、PDGFRA、MCAM、FUT4、NGFR、ITGB1、CD44、ITGA4、ITGA6、ICAM1、THY1、FAS、ABCG2、CRABP2、MAP2、CDH2、NEUROG3、NOTCH1、SOX2、SYP、MAPT和TH;以及
所述内胚层谱系标志物选自于:APOE、CDX2、FOXA2、GATA4、GATA6、GCG、ISL1、NKX2-5、PDX1、SLC2A2、SST、ITGB1、CD44、ITGA6、THY1、HNF1A、HNF1B、CDH2、NEUROG3、CTNNB1和SYP。
2.如权利要求1所述的组合物,其中,
所述中胚层谱系标志物选自于:CD34、DLL1、HHEX、INHBA、LEF1、SRF、T、TWIST1、ADIPOQ、MME、KIT、ITGAL、ITGAM、ITGAX、TNFRSF1A、ANPEP、SDC1、CDH5、MCAM、PECAM1、CDH1、CDH2、CD36、CD4、ITGAV、ITGB3、CEACAM1、ABCG2、KDR、MYOD1、MYOG、NES、NOTCH1、SPI1和STAT3;
所述外胚层谱系标志物选自于:NCAM1、EN1、FGFR2、GATA2、HAND1、MNX1、NEFL、NES、NOG、OTX2、PAX3、PAX6、PAX7、SNAI2、SOX10、SOX9、TDGF、PDGFRA、MCAM、FAS、ABCG2、CRABP2、MAP2、NOTCH1、SOX2、MAPT和TH;以及
所述内胚层谱系标志物选自于:CDX2、FOXA2、GATA4、GATA6、GCG、ISL1、NKX2-5、PDX1、SLC2A2、SST、HNF1A、HNF1B和CTNNB1。
3.如权利要求1或2所述的组合物,所述组合物进一步包含如下寡核苷酸或寡核苷酸对:所述寡核苷酸或寡核苷酸对扩增多能标志物集的mRNA或cDNA。
4.如权利要求3所述的组合物,其中,所述多能标志物集包含选自于CXCL5、NANOG、POU5F1和SOX2中的至少一种多能标志物。
5.如权利要求1或2所述的组合物,所述组合物进一步包含如下至少一种寡核苷酸或至少一种寡核苷酸对:所述至少一种寡核苷酸或至少一种寡核苷酸对扩增对应于至少一种对照基因的序列。
6.如权利要求3所述的组合物,所述组合物进一步包含如下至少一种寡核苷酸或至少一种寡核苷酸对:所述至少一种寡核苷酸或至少一种寡核苷酸对扩增对应于至少一种对照基因的序列。
7.如权利要求4所述的组合物,所述组合物进一步包含如下至少一种寡核苷酸或至少一种寡核苷酸对:所述至少一种寡核苷酸或至少一种寡核苷酸对扩增对应于至少一种对照基因的序列。
8.如权利要求1或2所述的组合物,其中,所述寡核苷酸固定在固体支持物的表面上或附着至固体支持物的表面。
9.如权利要求3所述的组合物,其中,所述寡核苷酸固定在固体支持物的表面上或附着至固体支持物的表面。
10.如权利要求4所述的组合物,其中,所述寡核苷酸固定在固体支持物的表面上或附着至固体支持物的表面。
11.如权利要求5所述的组合物,其中,所述寡核苷酸固定在固体支持物的表面上或附着至固体支持物的表面。
12.如权利要求8所述的组合物,其中,所述固体支持物为微量滴定板。
13.如权利要求9所述的组合物,其中,所述固体支持物为微量滴定板。
14.如权利要求10所述的组合物,其中,所述固体支持物为微量滴定板。
15.如权利要求11所述的组合物,其中,所述固体支持物为微量滴定板。
16.如权利要求12所述的组合物,其中,所述微量滴定板具有不多于96个孔或384个孔,其中,各孔具有针对谱系标志物的寡核苷酸或寡核苷酸对。
17.如权利要求13所述的组合物,其中,所述微量滴定板具有不多于96个孔或384个孔,其中,各孔具有针对谱系标志物的寡核苷酸或寡核苷酸对。
18.如权利要求14所述的组合物,其中,所述微量滴定板具有不多于96个孔或384个孔,其中,各孔具有针对谱系标志物的寡核苷酸或寡核苷酸对。
19.如权利要求15所述的组合物,其中,所述微量滴定板具有不多于96个孔或384个孔,其中,各孔具有针对谱系标志物的寡核苷酸或寡核苷酸对。
20.如权利要求1或2所述的组合物,其中,所述寡核苷酸或寡核苷酸对为荧光标记的。
21.如权利要求3所述的组合物,其中,所述寡核苷酸或寡核苷酸对为荧光标记的。
22.如权利要求4所述的组合物,其中,所述寡核苷酸或寡核苷酸对为荧光标记的。
23.如权利要求5所述的组合物,其中,所述寡核苷酸或寡核苷酸对为荧光标记的。
24.如权利要求8所述的组合物,其中,所述寡核苷酸或寡核苷酸对为荧光标记的。
25.如权利要求12所述的组合物,其中,所述寡核苷酸或寡核苷酸对为荧光标记的。
26.如权利要求16所述的组合物,其中,所述寡核苷酸或寡核苷酸对为荧光标记的。
27.权利要求1所述的组合物在对细胞系的分化潜能进行测定的方法中的用途,所述方法包括:
使用来源于所述细胞的核酸进行扩增;
在所述细胞系中检测中胚层谱系、内胚层谱系或外胚层谱系的谱系标志物的表达,将其与至少一种或多种参比多能干细胞样品中的中胚层谱系、内胚层谱系和外胚层谱系的相同的多个谱系标志物的表达进行比较,并以这一比较为基础;
确定所述细胞系沿中胚层谱系、内胚层谱系或外胚层谱系分化的分化潜能。
28.如权利要求27所述的用途,其中,在进行阵列扩增后,使用位于网络服务器的软件对数据进行分析。
29.如权利要求28所述的用途,其中,所述软件输出信号,以表明所述细胞将可能沿选自于中胚层谱系、外胚层谱系和内胚层谱系的谱系分化。
30.如权利要求29所述的用途,其中,所述软件输出信号,以表明所述多能干细胞的多能性。
31.如权利要求27所述的用途,其中,所述扩增通过包括如下的方法进行:聚合酶链式反应(PCR)、逆转录聚合酶链式反应(RT-PCR)、定量RT-PCR。
32.通过对细胞的分化潜能进行表征来选择沿选自于中胚层谱系、内胚层谱系和外胚层谱系的谱系分化的细胞系的分析,所述分析包括:
i.对谱系基因标志物集的表达水平进行测量,其中,所述谱系基因标志物集包含至少一种中胚层谱系标志物、至少一种内胚层谱系标志物和至少一种外胚层谱系标志物,其中,
所述中胚层谱系标志物选自于:CD34、DLL1、HHEX、INHBA、LEF1、SRF、T、TWIST1、ADIPOQ、MME、KIT、ITGAL、ITGAM、ITGAX、TNFRSF1A、ANPEP、SDC1、CDH5、MCAM、FUT4、NGFR、ITGB1、PECAM1、CDH1、CDH2、CD36、CD4、CD44、ITGA4、ITGA6、ITGAV、ICAM1、NCAM1、ITGB3、CEACAM1、THY1、ABCG2、KDR、GATA3、GATA4、MYOD1、MYOG、NES、NOTCH1、SPI1和STAT3;
所述外胚层谱系标志物选自于:NCAM1、EN1、FGFR2、GATA2、GATA3、HAND1、MNX1、NEFL、NES、NOG、OTX2、PAX3、PAX6、PAX7、SNAI2、SOX10、SOX9、TDGF、APOE、PDGFRA、MCAM、FUT4、NGFR、ITGB1、CD44、ITGA4、ITGA6、ICAM1、THY1、FAS、ABCG2、CRABP2、MAP2、CDH2、NEUROG3、NOTCH1、SOX2、SYP、MAPT和TH;以及
所述内胚层谱系标志物选自于:APOE、CDX2、FOXA2、GATA4、GATA6、GCG、ISL1、NKX2-5、PDX1、SLC2A2、SST、ITGB1、CD44、ITGA6、THY1、HNF1A、HNF1B、CDH2、NEUROG3、CTNNB1和SYP;
并将细胞中的所述中胚层谱系标志物、内胚层谱系标志物或外胚层谱系标志物集的基因表达水平与相同谱系标志物集的参比基因表达水平进行比较;以及
ii.基于所测量的中胚层谱系标志物、内胚层谱系标志物或外胚层谱系标志物集的基因表达水平相比于相同的中胚层谱系标志物、内胚层谱系标志物或外胚层谱系标志物集的参比基因表达水平而言不存在统计学显著差异,对细胞系进行选择;或基于至少一种中胚层谱系标志物、内胚层谱系标志物或外胚层谱系标志物的表达水平相比于相同的中胚层谱系标志物、内胚层谱系标志物或外胚层谱系标志物集的参比表达水平而言存在统计学显著差异,对细胞系进行选择。
33.如权利要求32所述的分析,其中,
所述中胚层谱系标志物选自于:CD34、DLL1、HHEX、INHBA、LEF1、SRF、T、TWIST1、ADIPOQ、MME、KIT、ITGAL、ITGAM、ITGAX、TNFRSF1A、ANPEP、SDC1、CDH5、MCAM、PECAM1、CDH1、CDH2、CD36、CD4、ITGAV、ITGB3、CEACAM1、ABCG2、KDR、MYOD1、MYOG、NES、NOTCH1、SPI1和STAT3;
所述外胚层谱系标志物选自于:NCAM1、EN1、FGFR2、GATA2、HAND1、MNX1、NEFL、NES、NOG、OTX2、PAX3、PAX6、PAX7、SNAI2、SOX10、SOX9、TDGF、PDGFRA、MCAM、FAS、ABCG2、CRABP2、MAP2、NOTCH1、SOX2、MAPT和TH;以及
所述内胚层谱系标志物选自于:CDX2、FOXA2、GATA4、GATA6、GCG、ISL1、NKX2-5、PDX1、SLC2A2、SST、HNF1A、HNF1B和CTNNB1。
CN201180055683.5A 2010-09-17 2011-09-16 对多能干细胞的效用和安全性进行表征的功能基因组学研究 Active CN103459611B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US38403010P 2010-09-17 2010-09-17
US61/384,030 2010-09-17
US201161429965P 2011-01-05 2011-01-05
US61/429,965 2011-01-05
PCT/US2011/051931 WO2012037456A1 (en) 2010-09-17 2011-09-16 Functional genomics assay for characterizing pluripotent stem cell utility and safety

Publications (2)

Publication Number Publication Date
CN103459611A CN103459611A (zh) 2013-12-18
CN103459611B true CN103459611B (zh) 2016-11-02

Family

ID=44675871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180055683.5A Active CN103459611B (zh) 2010-09-17 2011-09-16 对多能干细胞的效用和安全性进行表征的功能基因组学研究

Country Status (6)

Country Link
US (1) US20130296183A1 (zh)
EP (1) EP2616554A1 (zh)
JP (3) JP2013545439A (zh)
CN (1) CN103459611B (zh)
CA (1) CA2812194C (zh)
WO (1) WO2012037456A1 (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6297983B2 (ja) * 2013-01-16 2018-03-20 ユニバーサル・バイオ・リサーチ株式会社 細胞の識別方法
WO2014152939A1 (en) * 2013-03-14 2014-09-25 President And Fellows Of Harvard College Methods and systems for identifying a physiological state of a target cell
WO2014200905A2 (en) 2013-06-10 2014-12-18 President And Fellows Of Harvard College Early developmental genomic assay for characterizing pluripotent stem cell utility and safety
US11060065B2 (en) 2013-06-10 2021-07-13 Corning Incorporated Tissue structure and preparation method thereof
WO2014200030A1 (ja) * 2013-06-12 2014-12-18 国立大学法人京都大学 人工多能性幹細胞の選別方法および血球への分化誘導方法
CN103451284B (zh) * 2013-08-22 2015-03-18 中国科学院生物物理研究所 一组人类心肌细胞的新型分子标记物及其应用
US10394828B1 (en) * 2014-04-25 2019-08-27 Emory University Methods, systems and computer readable storage media for generating quantifiable genomic information and results
WO2015195547A1 (en) * 2014-06-16 2015-12-23 University Of Washington Methods for controlling stem cell potential and for gene editing in stem cells
JP6478418B2 (ja) * 2014-07-11 2019-03-06 国立研究開発法人産業技術総合研究所 細胞分化ポテンシャル判別法
EP2983297A1 (en) * 2014-08-08 2016-02-10 Thomson Licensing Code generation method, code generating apparatus and computer readable storage medium
CN104531613B (zh) * 2014-11-17 2017-12-19 中国农业科学院北京畜牧兽医研究所 Wip1敲除在促进小鼠骨髓间充质干细胞迁移中的应用
US11195596B2 (en) 2015-01-29 2021-12-07 Massachusetts Institute Of Technology Analyzing characteristics of genomic regions of a genome
CN104826130B (zh) * 2015-02-06 2018-06-22 中国人民解放军第二军医大学 Msx3基因特异诱导小胶质细胞选择性极化的方法及其应用
EP3069718A1 (en) * 2015-03-17 2016-09-21 Universidade do Minho Citalopram or escitalopram for use in the treatment of neurodegenerative diseases
WO2017154201A1 (ja) * 2016-03-11 2017-09-14 株式会社ニコン 評価装置、観察装置、及びプログラム
WO2018057820A1 (en) 2016-09-21 2018-03-29 Predicine, Inc. Systems and methods for combined detection of genetic alterations
WO2017221344A1 (ja) * 2016-06-22 2017-12-28 株式会社島津製作所 情報処理装置、情報処理方法及び情報処理プログラム
AU2017290840A1 (en) 2016-06-30 2019-01-24 Nantomics, Llc Synthetic WGS bioinformatics validation
CN108241687B (zh) * 2016-12-26 2022-05-17 阿里巴巴集团控股有限公司 一种可视化图表信息的处理方法及装置
CN106874707A (zh) * 2017-01-18 2017-06-20 安徽农业大学 一种与杨树抗逆基因表达调控相关的内参基因的筛选方法
EP3589371A4 (en) 2017-03-02 2020-11-25 Youhealth Oncotech, Limited METHYLATION MARKERS FOR THE DIAGNOSIS OF HEPER CELL CARCINOMA AND LUNG CANCER
US11603563B2 (en) * 2017-06-10 2023-03-14 Shimadzu Corporation Method of predicting differentiation potential of iPS cells into cartilage cells based on gene expression profiles
JP7141029B2 (ja) * 2017-07-12 2022-09-22 シスメックス株式会社 データベースを構築する方法
CN107760773A (zh) * 2017-10-26 2018-03-06 北京中仪康卫医疗器械有限公司 一种对胚胎培养液进行scRRBS分析的方法
CN108753963A (zh) * 2018-06-01 2018-11-06 安徽达健医学科技有限公司 一种检测粪便脱落细胞dna甲基化状态用于分析大肠癌的试剂盒
KR20210020045A (ko) * 2018-06-13 2021-02-23 23이키가이 피티이 엘티디 다능성 줄기 세포 바이오마커 분석 방법과 그 구현 방법
US20210275596A1 (en) * 2018-07-20 2021-09-09 Cell2In, Inc. Application of gene profile for cells isolated using fresh-tracer
KR102091086B1 (ko) * 2018-08-17 2020-03-19 고려대학교 산학협력단 태반유래 세포 조건화 배지를 이용하여 인간 상피세포로부터 인간 신경 줄기세포를 생산하는 방법
CN109536473A (zh) * 2018-12-19 2019-03-29 华中科技大学鄂州工业技术研究院 整合多组学数据推测细胞转分化中关键蛋白质激酶的方法
CN110592007B (zh) * 2019-09-19 2020-08-21 安徽中盛溯源生物科技有限公司 一种间充质干细胞及其制备方法和应用
CN110836964A (zh) * 2019-10-24 2020-02-25 海丰县新三农微生物农业有限公司 一种生物干细胞生态防控系统
CN110769010B (zh) * 2019-11-03 2020-04-03 长沙豆芽文化科技有限公司 一种数据管理权限处理方法、装置及计算机设备
WO2021145402A1 (ja) 2020-01-16 2021-07-22 富士フイルム株式会社 特定細胞に分化する能力を有する多能性幹細胞の製造方法およびその応用
KR102254600B1 (ko) * 2020-02-13 2021-05-21 주식회사 피씨지바이오 간세포 회수율이 향상된 상피세포 분리방법
EP4100876A4 (en) * 2020-03-10 2024-02-28 Ai On Innovations Inc SYSTEM AND METHODS FOR MAMMAL TRANSFER LEARNING
EP4148139A4 (en) * 2020-06-19 2023-11-08 FUJIFILM Corporation METHOD FOR IDENTIFYING BIOMARKERS AND METHOD FOR PRODUCING CELLS
CN115843381A (zh) * 2020-06-19 2023-03-24 富士胶片株式会社 信息处理装置、信息处理装置的工作方法、信息处理装置的工作程序
US11367521B1 (en) * 2020-12-29 2022-06-21 Kpn Innovations, Llc. System and method for generating a mesodermal outline nourishment program
WO2024056635A1 (de) * 2022-09-14 2024-03-21 Rheinisch-Westfälische Technische Hochschule (Rwth) Aachen Verfahren zur qualitativen kontrolle von stammzellen
DE102023105548A1 (de) 2022-09-14 2024-03-14 Rheinisch-Westfälische Technische Hochschule Aachen, Körperschaft des öffentlichen Rechts Verfahren zur qualitativen Kontrolle von Stammzellen

Family Cites Families (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US47263A (en) 1865-04-11 Improved ox-yoke
US555922A (en) 1896-03-10 Insulating-support for boxes containing electrical apparatus
US548257A (en) 1895-10-22 Hay rake and loader
US968742A (en) 1909-06-04 1910-08-30 Julio Conceicao Apparatus for gathering coffee.
US3270960A (en) 1964-09-11 1966-09-06 Sperry Rand Corp Fluid sensor
US3773919A (en) 1969-10-23 1973-11-20 Du Pont Polylactide-drug mixtures
US4963489A (en) 1987-04-14 1990-10-16 Marrow-Tech, Inc. Three-dimensional cell and tissue culture system
US5322770A (en) 1989-12-22 1994-06-21 Hoffman-Laroche Inc. Reverse transcription with thermostable DNA polymerases - high temperature reverse transcription
US5202231A (en) 1987-04-01 1993-04-13 Drmanac Radoje T Method of sequencing of genomes by hybridization of oligonucleotide probes
US6270961B1 (en) 1987-04-01 2001-08-07 Hyseq, Inc. Methods and apparatus for DNA sequencing and DNA identification
US5744101A (en) 1989-06-07 1998-04-28 Affymax Technologies N.V. Photolabile nucleoside protecting groups
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
CA2040503A1 (en) 1990-04-25 1991-10-26 James E. Stefano Selective amplification system using q beta replicase
EP0562047A4 (en) 1990-12-06 1995-11-02 Affymax Tech Nv Sequencing by hybridization of a target nucleic acid to a matrix of defined oligonucleotides
WO1993022461A1 (en) 1992-05-06 1993-11-11 Gen-Probe Incorporated Nucleic acid sequence amplification method, composition and kit
WO1994000484A1 (en) 1992-06-22 1994-01-06 Young Henry E Scar inhibitory factor and use thereof
US5672346A (en) 1992-07-27 1997-09-30 Indiana University Foundation Human stem cell compositions and methods
US5858659A (en) 1995-11-29 1999-01-12 Affymetrix, Inc. Polymorphism detection
US6136540A (en) 1994-10-03 2000-10-24 Ikonisys Inc. Automated fluorescence in situ hybridization detection of genetic abnormalities
US5952172A (en) 1993-12-10 1999-09-14 California Institute Of Technology Nucleic acid mediated electron transfer
US5648211A (en) 1994-04-18 1997-07-15 Becton, Dickinson And Company Strand displacement amplification using thermophilic enzymes
US5807522A (en) 1994-06-17 1998-09-15 The Board Of Trustees Of The Leland Stanford Junior University Methods for fabricating microarrays of biological samples
US6379897B1 (en) 2000-11-09 2002-04-30 Nanogen, Inc. Methods for gene expression monitoring on electronic microarrays
US5622826A (en) 1994-12-22 1997-04-22 Houston Advanced Research Center Method for immobilization of molecules on platinum solid support surfaces
US5843780A (en) 1995-01-20 1998-12-01 Wisconsin Alumni Research Foundation Primate embryonic stem cells
US5968740A (en) 1995-07-24 1999-10-19 Affymetrix, Inc. Method of Identifying a Base in a Nucleic Acid
US5994619A (en) 1996-04-01 1999-11-30 University Of Massachusetts, A Public Institution Of Higher Education Of The Commonwealth Of Massachusetts, As Represented By Its Amherst Campus Production of chimeric bovine or porcine animals using cultured inner cell mass cells
CA2389358C (en) 1996-12-31 2008-07-15 Genometrix Incorporated Multiplexed molecular analysis apparatus and method
US5945577A (en) 1997-01-10 1999-08-31 University Of Massachusetts As Represented By Its Amherst Campus Cloning using donor nuclei from proliferating somatic cells
US6465611B1 (en) 1997-02-25 2002-10-15 Corixa Corporation Compounds for immunotherapy of prostate cancer and methods for their use
US6642433B1 (en) 1997-05-15 2003-11-04 Trillium Therapeutics Inc. Fgl-2 knockout mice
JP3880795B2 (ja) 1997-10-23 2007-02-14 ジェロン・コーポレーション フィーダー細胞を含まない培養物中で、霊長類由来始原幹細胞を増殖させるための方法
US6235473B1 (en) 1998-07-02 2001-05-22 Orchid Biosciences, Inc. Gene pen devices for array printing
US6406921B1 (en) 1998-07-14 2002-06-18 Zyomyx, Incorporated Protein arrays for high-throughput screening
US6495664B1 (en) 1998-07-24 2002-12-17 Aurora Biosciences Corporation Fluorescent protein sensors of post-translational modifications
US7410798B2 (en) 2001-01-10 2008-08-12 Geron Corporation Culture system for rapid expansion of human embryonic stem cells
US6667176B1 (en) 2000-01-11 2003-12-23 Geron Corporation cDNA libraries reflecting gene expression during growth and differentiation of human pluripotent stem cells
US6465199B1 (en) 1999-02-26 2002-10-15 Cyclacel, Ltd. Compositions and methods for monitoring the modification of natural binding partners
US6267400B1 (en) 1999-04-06 2001-07-31 Specialized Bicycle Components, Inc. Bicycle damping enhancement system
US7429466B2 (en) 2000-01-24 2008-09-30 Hypromatrix, Inc Methods and arrays for detecting biological molecules
CA2398107C (en) 2000-01-28 2013-11-19 Althea Technologies, Inc. Methods for analysis of gene expression
US6594432B2 (en) 2000-02-22 2003-07-15 Genospectra, Inc. Microarray fabrication techniques and apparatus
US6759197B2 (en) 2000-03-31 2004-07-06 Sir Mortimer B. Davis -- Jewish General Hospital Microchip arrays of regulatory genes
US20050153440A1 (en) 2000-05-22 2005-07-14 Feinberg Andrew P. Methods for assaying gene imprinting and methylated cpg islands
AU2001286173B2 (en) * 2000-08-01 2007-10-25 Yissum Research Development Company Directed differentiation of embryonic cells
US6902702B1 (en) 2000-08-16 2005-06-07 University Health Network Devices and methods for producing microarrays of biological samples
US20030077616A1 (en) 2001-04-19 2003-04-24 Ciphergen Biosystems, Inc. Biomolecule characterization using mass spectrometry and affinity tags
JP2005508141A (ja) 2001-05-25 2005-03-31 セローノ ジェネティクス インスティテュート ソシエテ アニニム ヒトcDNAおよびタンパク質、ならびにそれらの使用
US7112408B2 (en) 2001-06-08 2006-09-26 The Brigham And Women's Hospital, Inc. Detection of ovarian cancer based upon alpha-haptoglobin levels
US20030013208A1 (en) 2001-07-13 2003-01-16 Milagen, Inc. Information enhanced antibody arrays
IL160324A0 (en) 2001-08-13 2004-07-25 Beyond Genomics Inc Method and system for profiling biological systems
WO2003043402A2 (en) 2001-10-19 2003-05-30 Proligo Llc Nucleic acid probes and methods to detect and/or quantify nucleic acid analytes
US20030113910A1 (en) * 2001-12-18 2003-06-19 Mike Levanduski Pluripotent stem cells derived without the use of embryos or fetal tissue
US20030215858A1 (en) 2002-04-08 2003-11-20 Baylor College Of Medicine Enhanced gene expression system
US20030194711A1 (en) 2002-04-10 2003-10-16 Matthew Zapala System and method for analyzing gene expression data
AU2003239152A1 (en) 2002-04-23 2003-11-10 Millipore Corporation Sample preparation of biological fluids for proteomic applications
WO2003093445A2 (en) * 2002-05-03 2003-11-13 Stowers Institute For Medical Research Method for predicting gene potential and cell commitment
EP1546346A4 (en) * 2002-07-23 2006-02-08 Nanodiagnostics Inc MARKERS OF EMBRYONIC STEM CELLS, AND USE THEREOF
AU2003258228A1 (en) 2002-08-14 2004-03-03 The Regents Of The University Of California Proteome-wide mapping of post-translational modifications using endonucleases
US20030224411A1 (en) 2003-03-13 2003-12-04 Stanton Lawrence W. Genes that are up- or down-regulated during differentiation of human embryonic stem cells
US7153650B2 (en) * 2003-03-13 2006-12-26 Geron Corporation Marker system for preparing and characterizing high-quality human embryonic stem cells
US20060177825A1 (en) * 2003-04-29 2006-08-10 Mcdonald John F Global analysis of transposable elements as molecular markers of the developmental potential of stem cells
ES2281743T3 (es) 2003-12-16 2007-10-01 Bayer Healthcare Llc Ensayo para detectar el estado de metilacion por extension con iniciadores especificos de metilacion (mspe).
GB0413005D0 (en) * 2004-06-11 2004-07-14 Coletica Ligand
EP1805500A4 (en) 2004-09-28 2008-05-07 Singulex Inc SYSTEM AND METHOD FOR THE SPECTROSCOPIC ANALYSIS OF INDIVIDUAL PARTICLES
GB0504427D0 (en) * 2005-03-03 2005-04-06 Roslin Inst Edinburgh Method for differentiation of stem cells
US7425415B2 (en) 2005-04-06 2008-09-16 City Of Hope Method for detecting methylated CpG islands
WO2007050043A2 (en) * 2005-10-24 2007-05-03 Agency For Science, Technology And Research Methods of specifying mesodermal, endodermal and mesoendodermal cell fates
US20090227032A1 (en) 2005-12-13 2009-09-10 Kyoto University Nuclear reprogramming factor and induced pluripotent stem cells
US8278104B2 (en) 2005-12-13 2012-10-02 Kyoto University Induced pluripotent stem cells produced with Oct3/4, Klf4 and Sox2
EP2206724A1 (en) 2005-12-13 2010-07-14 Kyoto University Nuclear reprogramming factor
CA2673784A1 (en) 2006-12-27 2008-07-10 Usc Stevens-University Of Southern California Dna methylation markers based on epigenetic stem cell signatures in cancer
SG193652A1 (en) 2007-03-23 2013-10-30 Wisconsin Alumni Res Found Somatic cell reprogramming
MX348010B (es) 2007-04-07 2017-05-23 Whitehead Inst Biomedical Res Reprogramacion de celulas somaticas.
EP2164951A2 (en) 2007-05-30 2010-03-24 The General Hospital Corporation Methods of generating pluripotent cells from somatic cells
JP2008307007A (ja) 2007-06-15 2008-12-25 Bayer Schering Pharma Ag 出生後のヒト組織由来未分化幹細胞から誘導したヒト多能性幹細胞
US9213999B2 (en) 2007-06-15 2015-12-15 Kyoto University Providing iPSCs to a customer
US7615374B2 (en) 2007-09-25 2009-11-10 Wisconsin Alumni Research Foundation Generation of clonal mesenchymal progenitors and mesenchymal stem cell lines under serum-free conditions
EP2163646A1 (en) 2008-09-04 2010-03-17 Roche Diagnostics GmbH CpG island sequencing
AU2008355123B2 (en) * 2008-04-21 2014-12-04 Viacyte, Inc. Methods for purifying endoderm and pancreatic endoderm cells derived from human embryonic stem cells
US20100003674A1 (en) * 2008-07-03 2010-01-07 Cope Frederick O Adult stem cells, molecular signatures, and applications in the evaluation, diagnosis, and therapy of mammalian conditions
CA2730546A1 (en) * 2008-07-14 2010-01-21 Oklahoma Medical Research Foundation Production of pluripotent cells through inhibition of bright/arid3a function
US20120021519A1 (en) 2008-09-19 2012-01-26 Presidents And Fellows Of Harvard College Efficient induction of pluripotent stem cells using small molecule compounds
WO2010044892A1 (en) 2008-10-17 2010-04-22 President And Fellows Of Harvard College Diagnostic method based on large scale identification of post-translational modification of proteins
EP2356221B1 (en) 2008-10-24 2018-11-21 Wisconsin Alumni Research Foundation Pluripotent stem cells obtained by non-viral reprogramming
WO2010111422A2 (en) * 2009-03-25 2010-09-30 The Salk Institute For Biological Studies Induced pluripotent stem cell generation using two factors and p53 inactivation
WO2011008541A2 (en) * 2009-06-29 2011-01-20 The Regents Of The University Of California Molecular markers and assay methods for characterizing cells
WO2011046635A1 (en) * 2009-10-14 2011-04-21 The Johns Hopkins University Differentially methylated regions of reprogrammed induced pluripotent stem cells, method and compositions thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Induced pluripotent stem cells and embryonic stem cells are distinguished by gene expression signatures;Mark H. et.al;《Cell stem cell》;20090731;111-123 *

Also Published As

Publication number Publication date
WO2012037456A1 (en) 2012-03-22
CA2812194A1 (en) 2012-03-22
JP2019106999A (ja) 2019-07-04
JP2017104105A (ja) 2017-06-15
EP2616554A1 (en) 2013-07-24
CN103459611A (zh) 2013-12-18
US20130296183A1 (en) 2013-11-07
CA2812194C (en) 2022-12-13
JP2013545439A (ja) 2013-12-26

Similar Documents

Publication Publication Date Title
CN103459611B (zh) 对多能干细胞的效用和安全性进行表征的功能基因组学研究
Hammoud et al. Transcription and imprinting dynamics in developing postnatal male germline stem cells
Reizel et al. Colon stem cell and crypt dynamics exposed by cell lineage reconstruction
Borisenko et al. Surprisingly rich repertoire of Wnt genes in the demosponge Halisarca dujardini
Chen et al. Spatial genome re-organization between fetal and adult hematopoietic stem cells
US20180251818A1 (en) Early developmental genomic assay for characterizing pluripotent stem cell utility and safety
CN102333891A (zh) 用于药靶诊断、预后和鉴别的单细胞基因表达
Mikedis et al. DAZL mediates a broad translational program regulating expansion and differentiation of spermatogonial progenitors
JP2022538499A (ja) サンプル調製、サンプルシークエンシング、およびシークエンシングデータのバイアス補正と品質管理のためのシステムならびに方法
Kashiwagi et al. Xenopus tropicalis: an ideal experimental animal in amphibia
CN105051188A (zh) 新颖方法
Indriastuti et al. Sperm transcriptome analysis accurately reveals male fertility potential in livestock
Liu et al. Genome-wide identification and characterization of long non-coding RNAs in Longissimus dorsi skeletal muscle of Shandong black cattle and Luxi cattle
Hu et al. Single‐cell analysis of nonhuman primate preimplantation development in comparison to humans and mice
Zhang et al. Multiple genes in a single GWAS risk locus synergistically mediate aberrant synaptic development and function in human neurons
Singh et al. Epigenetic Reprogramming in Mice and Humans: From Fertilization to Primordial Germ Cell Development
Zhou et al. Direct Full-Length RNA Sequencing Reveals an Important Role of Epigenetics During Sexual Reversal in Chinese Soft-Shelled Turtle
Mira-Bontenbal et al. Genetic and epigenetic determinants of reactivation of Mecp2 and the inactive X chromosome in neural stem cells
Okada et al. Mitochondrial DNA deficiency and supplementation in Sus scrofa oocytes influence transcriptome profiles in oocytes and blastocysts
Sainz et al. Genome-wide gene expression analysis in mouse embryonic stem cells
US20210340499A1 (en) Production and Enrichment of Pancreatic Endocrine Progenitor Cells
Xu et al. Effect on gene expression profile of hnRNPK knockdown in mouse GC-1SPG cells.
Class et al. Patent application title: FUNCTIONAL GENOMICS ASSAY FOR CHARACTERIZING PLURIPOTENT STEM CELL UTILITY AND SAFETY Inventors: Kevin C. Eggan (Boston, MA, US) Kevin C. Eggan (Boston, MA, US) Alexander Meissner (Cambridge, MA, US) Christoph Bock (Vienna, AT) Evangelos Kiskinis (Boston, MA, US) Griet Annie Frans Verstappen (Moltsel, BE) Assignees: President and Fellows of Harvard College
Kahraman PGT-A in poor, normo-and hyper-responders
Chia et al. Stem cell genome‐to‐systems biology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant