CN107002289B

CN107002289B - 用于定量评价dna-蛋白质复合物密度的组合物和方法

Info

Publication number: CN107002289B
Application number: CN201580018619.8A
Authority: CN
Inventors: 亚历山大·J·卢特恩伯格; 艾德里安·泽博尔斯基; 陈中磊
Original assignee: University of Chicago
Current assignee: University of Chicago
Priority date: 2014-02-03
Filing date: 2015-02-03
Publication date: 2019-08-13
Anticipated expiration: 2035-02-03
Also published as: EP3102721A4; US11965890B2; EP3102721A1; JP6985010B2; US10732185B2; EP3102721B1; US20200319204A1; US20160341743A1; WO2015117145A1; JP2017506073A; JP2019176878A; CN107002289A; ES2808651T3

Abstract

本发明的一个方面描述了定量测量染色质中给定DNA基因座上结合DNA的蛋白的密度和占据百分比的材料和方法，所述结合DNA的蛋白例如组蛋白、组蛋白变体、组蛋白翻译后修饰物和转录因子。一个实施方案测量了特定基因座上某因子(factor)的平均数量并控制涉及抗体质量的许多缺陷和处理事宜。其它实施方案包括校准和量化染色质免疫沉淀试验、评估亲和剂特异性以及试剂盒中所需的试剂及其配制。另一个实施方案允许通过测量基因组基因座上组蛋白修饰密度来进行病症或疾病的诊断。

Description

用于定量评价DNA-蛋白质复合物密度的组合物和方法

相关申请

本申请要求享有2014年2月3日提交的美国临时专利申请第61/935,129号的提交日的权益，该申请的内容在此以引用的方式并入本文。

联邦政府资助的研究

本发明在美国政府的支持下完成，基金号为NIH-1R21HG007426。美国政府拥有本申请的某些权利。

背景

染色质即蛋白质与DNA的集合物，其是基因组的生理形式，是DNA基本功能的重要调节物，在DNA代谢、细胞和整个有机体功能中发挥关键作用。染色质结构的基本重复单位是核小体：8个核心组蛋白(两个拷贝的H2A、H2B、H3和H4)的DNA结合轴状物(spool)，基因组DNA缠绕8个核心组蛋白近两整圈。例如，可通过微球菌核酸酶消化来产生单个核小体。组蛋白包括H1组蛋白、H2A组蛋白、H2B组蛋白、H3组蛋白和H4组蛋白，并且可被修饰为包含多个表位和翻译后修饰。

在细胞中，组蛋白的翻译后修饰(或氨基酸序列的变化)能够调节局部染色质状态的变化，所述局部染色质状态的变化控制基本DNA的可及性，从而调节从转录激活到基因沉默的过程。这些化学修饰称作“表观遗传标记”，增加了另一信息层而不改变DNA的标准碱基配对容量，而且似乎互相作用并与其它区别染色质特征配合以控制基因组。多种细胞过程例如转录、复制、干细胞多能性、基因沉默、X染色体失活、DNA修复、细胞凋亡、表观遗传、细胞身份记忆(cellular identity retention)、造血、癌症、多种中枢神经系统疾病、心血管疾病、糖尿病、肥胖、细菌感染以及发育期间的基因表达程序都似乎在其过程或因果关系中涉及表观遗传修饰。

染色质免疫沉淀(ChIP)是发现这些表观遗传修饰存在于基因组何处以及追踪它们随着发育和病理转变(例如造血干细胞到白细胞)中细胞身份信息的变化而变化的主要方法。ChIP是本领域熟知的。简言之，ChIP是拉下试验(pull-down assay)，其依赖于通过机械、物理、化学或酶法剪切使活生物体的基因组物质片段化以产生蛋白质-DNA片段池(主要为核小体)，然后用亲和剂例如结合特定蛋白或其翻译后修饰的抗体探测(probed)所述蛋白质-DNA片段池以拉下特定染色质片段。ChIP利用从片段化的染色质“输入”库进行的亲和捕获来富集携带有感兴趣的表位的片段。可通过本领域已知的包括RT-PCR、下一代测序、ddPCR，qPCR、微阵列探针杂交的多种技术和能够读出且量化DNA序列的其他方法来鉴定间接捕获的DNA片段的身份信息、相对丰度和在基因组中的位置。

然后，这种与蛋白质原位结合的DNA位置有关的信息可用于推断完整基因组中与DNA结合的蛋白质的位置，并评估与该序列在经受亲和捕获的初始片段池(pool)即“输入”中的频率相比或相对于一些其他的基因组基因座，该DNA基因座上存在多少结合的物质。换言之，将所捕获的物质用qPCR、下一代测序等进行分析并与阴性对照进行比较以评估也称作拉下试验(pull-down)的免疫沉淀所给予的相对富集。明显的是，现有技术从相对意义上回答了“在基因组何处”这一问题，但并没有提供与该位点上靶向表位的实际丰度有关的重要信息。然而，ChIP提供了对位置、组蛋白标记和组蛋白变体的组合如何能够调控基因表达(Henikoff，2008；Jiang和Pugh,2009；Li和Carey,2007)以及这些变化如何能够调控细胞分化(Bernstein等,2007)的深刻见解。而且，它是理解表观遗传学在癌症和其他疾病中的作用包括发现疾病标记物的关键工具(Dawson和Kouzarides,2012；Feinberg,2007)。

尽管用作表观遗传学研究的主要实验技术，染色质免疫沉淀结合深度测序(ChIP-seq)或其它分析仍有许多严重的缺陷。首先，每个ChIP测量都是相对的，其并不能标准化为任意的参照物(reference)，这阻碍了对来自同一样品、不同细胞和不同患者的不同重复的数据进行直接比较。其次，ChIP重度依赖于抗体试剂的质量，即使在同一抗体的不同批次中，抗体试剂的特异性和亲和力也有所不同，抗体试剂可对脱靶(off-target)表位具有明显的亲和力，常常导致假阳性检测和对数据的曲解(Bock et al.，2011；Nady et al.,2008；Park,2009；Fuchs et al.,2011；Landt et al.,2012；Egelhofer et al.,2011)。ChIP中实验误差的最大来源是用于捕获所期望的表位(组蛋白修饰、变体或转录因子)的抗体亲和剂的质量。相关肽表位的固定排列揭示了“ChIP级”抗体结合的令人头疼的乱交(Bock et al.，2011；Egelhofer et al.，2011；Fuchs et al.，2011)，其因日益复杂的亲和力、特异性和再现性测量而复杂化；几百种商用抗体中有高达80％不能进行严格的质量控制(Egelhofer et al.，2011；Landt et al.，2012)。甚至不同批次的同一商用抗体对靶标的表观亲和力有高达20倍的不同(Hattori et al.,2013)且展现出显著的特异性差异(Nishikori et al.,2012)。然而目前可用的ChIP实验内并没有可用的抗体特异性测量，这导致评估数据时的巨大不确定性。再次，即使对两种不同抗体具有等价的抗体亲和力和特异性，变化范围非常大的表位丰度会妨碍对ChIP结果的有意义比对(Leroy et al.，2013；Young et al.，2009)。最后，ChIP制备中的非常小的差异可导致输出数据的明显差异，导致实验间的不一致。实验处理的差异(Marinov et al.，2014)以及在每个测序仪泳道中装载等量的样品，即使进行差别扩增，也使得基于ChIP的公正比较有问题。

因为ChIP数据以重度依赖于精确实验条件的相对值(on a relative scale)来表示，所以归一化最终需要可能没有根据的假设(Bin Liu et al.，2013；Liang和Keles，2012)，或者在峰识别(peak calling)中必须牺牲掉大部分实验数据以容许进行比较(Zhang et al.，2008)。除了峰识别以外，几乎没有广泛应用的ChIP-seq质量控制，到目前为止，在最坏的情形中，ChIP不可再现(Egelhofer et al.，2011；Landt et al.，2012；Marinov et al.，2014)。到目前为止，在当前的方法或技术中，这些因素中没有一个被考虑到。用目前的ChIP技术不可能测量以基因座特异性(locus-specific)的方式测量组蛋白修饰的绝对密度。因此，不能对某些基因组基因座上看似重叠的不同组蛋白修饰的峰进行有意义的比较。而且，实验者所知晓的实验变化和缺陷不但阻碍ChIP试验用作可靠的患者诊断法(尽管其测量的表观遗传标记与多种疾病状态有明显的关联)而且妨碍ChIP在基础科学研究中的效用。

发明内容

本发明的一个方面提供进行可应用于医学诊断和研究的拉下试验(pull-downassay)例如ChIP的材料和方法。本发明使得能够用绝对值量化来自拉下试验的结果。提供的材料和方法涉及评价含核小体的样品以测定多个样品中基因组基因座上特定表位的密度。

在本发明的一个方面，提供了将来自拉下试验的结果从用任意单位的任意标度(arbitrary scale)转化为用绝对单位的标准化标度(standardized scale)的方法，该方法改善了数据阐释的精确度。在本发明的一个实施方案中，标准物包含具有真阳性表位的类天然亲和力、特异性和抗体亲抗原性(avidity)的至少一种重构DNA-结合蛋白、重组DNA-结合蛋白、半合成DNA-结合蛋白和/或含有变体的DNA-结合蛋白，例如含有感兴趣的翻译后修饰的组蛋白。在优选的实施方案中，标准物还含有条形码分子，所述条形码分子被连接至重构DNA-结合蛋白、重组DNA-结合蛋白、半合成DNA-结合蛋白和/或含有变体的DNA-结合蛋白。同一类型的多种标准物可组成标准物(standard)。不同类型的多种标准物也可组成标准物。“标准物”可以是例如多种同一类型的组蛋白-条形码分子，在其他实施方案中，其可包括包含多种不同条形码分子的组蛋白-条形码分子，例如每个条形码分子指示所述标准物掺杂至库时的不同浓度。

在本发明的另一方面，通过采用一组标准物对原位假阳性表位和真阳性表位的拉下效率进行量化，这改善了数据阐释的准确度。在一个实施方案中，一组标准物包括具有真阳性表位的类天然亲和力、特异性和抗体亲抗原性的至少一种重构DNA-结合蛋白、半合成DNA-结合蛋白或含有变体的DNA-结合蛋白，以及具有假阳性表位的类天然亲和力、特异性和抗体亲抗原性的至少一种半合成DNA-结合蛋白或含有变体的DNA-结合蛋白。该组标准物的使用改善了拉下试验的绝对定量，因为它使得人们能够定量原位假阳性表位和真阳性表位的丰度。对原位假阳性表位和真阳性表位的丰度的了解改善了数据分析，因为可容易地计算阳性预测值(Positive Predictive Value)。对阳性预测值的了解改善了数据分析，因为它使得能够以一定的可靠度估算被认为是真阳性的表位的最小丰度，这对于用作医学诊断法和研究而言至关重要。

在本发明的另一方面，本发明提供了包含标准物或一组标准物以及一种或多种亲和剂的试剂盒，所述试剂盒用于对染色质免疫沉淀试验中真阳性表位和在一组标准物的情况下对假阳性表位进行绝对定量。在本发明的另一个方面，本发明提供了比较多个样品的拉下试验结果的方法。

在另一个方面，本发明提供了测定细胞染色质中基因组基因座上核心组蛋白第一表位的密度的方法。所述方法包括：由染色质制备天然核小体库，其中所述库包含核小体，所述核小体含有具有第一表位的核心组蛋白和指示基因组基因座的核小体核苷酸序列。将标准物添加至库以生成掺杂库(doped library)；其中标准物含有重构核小体，重构核小体包含(i)具有第一表位的标准组蛋白或标准组蛋白片段和(ii)含有连接至条形码分子的标准核苷酸序列的标准分子，其中标准组蛋白或标准组蛋白片段与标准核苷酸序列形成稳定的蛋白质-DNA结合体(association)。

将第一亲和剂添加至掺杂库以捕获一定量的天然核小体和含有第一表位的标准物，并通过对与所捕获的含第一表位的天然核小体相关的给定核苷酸序列的量和与掺杂库输入量的天然核小体相关的给定核苷酸序列的量进行比较来测定第一表位的相对基因组丰度。通过对与所捕获的标准物相关的条形码序列的量和与掺杂库的输入量的标准物相关的给定核苷酸序列的量进行比较来测定对第一表位的标准捕获效率。通过将相对基因组丰度与标准捕获效率进行比较来测定基因组基因座上核心组蛋白的第一表位的密度。

在一个实施方案中，测定标准捕获效率包括对条形码分子的捕获量与重构核小体的输入量的比例进行比较。在另一个实施方案中，测定相对基因组丰度包括对天然核小体核苷酸序列的捕获量与天然核小体核苷酸序列的输入量的比例进行比较。在另一个实施方案中，第一亲和剂为针对第一表位的抗体。

在一些实施方案中，将多种标准物添加到所述库，每种标准物含有重构核小体，其包含(i)具有第一表位的标准组蛋白和(ii)含有连接至条形码分子的标准核苷酸序列的标准分子，其中条形码分子编码指示添加至库的标准物的浓度的浓度参数，并且其中将具有至少两种不同浓度的标准物添加至库。多种标准物还可包括含有重构核小体的标准物，所述重构核小体包含(i)一种或多种脱靶表位和(ii)编码脱靶表位身份信息并指示脱靶表位的浓度参数的标准分子条形码。

可基于对脱靶表位的一个或多个捕获效率测定第一亲和剂的脱靶捕获的特异性，并且基于脱靶捕获的特异性修正基因组基因座上核心组蛋白的第一表位的密度。第一表位为翻译后修饰或蛋白质同种型(isoform)。条形码序列为细胞基因组中没有的序列。

可通过选自PCR、qPCR、ddPCR、下一代测序、杂交、放射自显影、荧光标记、光密度和使用嵌入探针的方法来测定核小体核苷酸序列和标准核苷酸序列中至少一个的丰度。核心组蛋白的第一表位可含有选自以下的至少一种翻译后氨基酸修饰：丝氨酸和丙氨酸的N-乙酰化；丝氨酸、苏氨酸和酪氨酸的磷酸化；N-巴豆酰化(N-crotonylation)；赖氨酸的N-乙酰化；赖氨酸的N6-甲基化、N6,N6-二甲基化、N6,N6,N6-三甲基化；精氨酸的ω-N-甲基化、对称-二甲基化、不对称-二甲基化；精氨酸的瓜氨酸化；赖氨酸的泛素化；赖氨酸的类泛素化；丝氨酸和苏氨酸的O-甲基化；以及精氨酸、天冬氨酸和谷氨酸的ADP-核糖基化。

标准分子可以为双链多核苷酸。双链多核苷酸可包括选自SEQ ID.NO：1-115的核苷酸序列。条形码分子可包括选自以下的分子：核苷酸条形码序列分子、锁核酸序列以及DNA序列。

细胞可以为来自患者的细胞，其中给定基因座上第一表位的量指示选自以下的疾病或病症：肾细胞癌、神经胶质瘤、胶质肉瘤、间变性星形细胞瘤、髓母细胞瘤、肺癌、小细胞肺癌、宫颈癌、结肠癌、直肠癌、脊索瘤、喉癌、卡波济氏肉瘤(Kaposi's sarcoma)、淋巴管肉瘤、淋巴管内皮肉瘤、结肠直肠癌、子宫内膜癌、卵巢癌、乳腺癌、胰腺癌、前列腺癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、睾丸肿瘤、威尔姆斯瘤(Wilms'tumor)、尤文氏瘤(Ewing's tumor)、膀胱癌、血管肉瘤、内皮肉瘤、腺癌、汗腺癌、皮脂腺肉瘤、乳头状肉瘤、乳头状腺肉瘤、囊腺肉瘤、支气管癌、髓样癌、肥大细胞瘤、间皮瘤、滑膜瘤、黑色素瘤、平滑肌肉瘤、横纹肌肉瘤、神经母细胞瘤、视网膜母细胞瘤、少突神经胶质瘤、听神经瘤、血管母细胞瘤、脑膜瘤、松果体瘤、室管膜瘤、颅咽管瘤、上皮癌、胚胎癌、鳞状细胞癌、基细胞癌、纤维肉瘤、粘液瘤、粘液肉瘤、神经胶质瘤、脂肪肉瘤，由幽门螺旋杆菌(Heliocobacterpylori)、单核细胞增生性李斯特菌(Listeria monocytogenes)、弗氏志贺菌(Shigellaflexneri)、嗜吞噬细胞无形体(Anaplas maphagocytophilum)、猫披衣菌(Chlamdophila)、EB病毒、疱疹病毒、HIV、埃及血吸虫(Schistosoma haematobium)引起的感染，肥胖症、糖尿病、心脏疾病、孤独症、脆性X综合征、ATR-X综合征、天使人综合征(Angelman syndrome)、普拉德-威利综合征(Prader-Willi syndrome)、贝克威思威德曼综合征(BeckwithWiedemann syndrome)、雷特氏综合征(Rett syndrome)、鲁宾斯坦-泰必氏综合症(Rubinstein-Taybi syndrome)、Coffin-Lowry综合征、免疫缺陷-着丝粒不稳定-面部异常综合征(Immunodeficiency-centrometric instability-facial anomalies syndrome)、α-地中海贫血、白血病、亨廷顿氏病(Huntington’s disease,)、精神分裂症、双相型疾病(bipolar disease)、衰老、痴呆、阿尔茨海默氏病、帕金森氏病、德朗热综合征、歌舞伎综合征、干燥综合征(Sjogren’s syndrome)、白癜风、进行性系统性硬化症、银屑病、原发性胆汁性肝硬化、克罗恩病(Crohn’s disease)和溃疡性结肠炎、桥本氏甲状腺炎(Hashimoto’sthyroiditis)、格雷夫斯病(Grave’s disease)、炎性肠病、动脉粥样硬化和心脏肥大。

另一个实施方案提供了测定细胞染色质中基因组基因座上核心组蛋白第一表位的密度的方法，所述方法包括：由染色质制备天然核小体的库，其中所述库包含核小体，每个核小体包含核心组蛋白和指示其基因组基因座来源的核小体核苷酸序列。将标准物添加至所述库以生成掺杂库；其中标准物包含重构核小体，其含有(i)具有第一表位的标准组蛋白或标准组蛋白片段和(ii)含有条形码分子的标准分子，其中标准组蛋白或标准组蛋白片段与标准分子形成稳定的蛋白质-DNA结合体。

测定掺杂库中基因组基因座上核心组蛋白的量，并测定掺杂库中标准物的量。将亲和剂添加至掺杂库以捕获一定量的天然核小体和含有所述表位的重构核小体，并基于所捕获的包含所述表位的标准物的量和掺杂库中基因组基因座上核心组蛋白的量测定基因组基因座上第一表位的相对基因组丰度。基于所捕获的重构核小体的量以及掺杂库中标准物的量测定所述表位的标准捕获效率，并且基于核心组蛋白的第一表位丰度以及标准捕获效率测定基因组基因座上核心组蛋白的第一表位的相对基因组丰度。

在一个实施方案中，测定掺杂库中基因组基因座上核心组蛋白的量包括：将第二亲和剂添加至掺杂库以回收一定量的包含第二表位的核小体，其中第二表位为存在于核心组蛋白上的不变表位(invariant epitope)；并测定所回收的包含第二表位的核小体的量中核小体核苷酸序列的量。在另一个实施方案中，测定掺杂库中标准物的量包括回收一定量的重构核小体，其中所述重构核小体包含第二表位，并测定所回收的包含第二表位的重构核小体的量中标准分子的量。在另一个实施方案中，第一亲和剂为针对第一表位的抗体，其中第二亲和剂为针对第二表位的抗体。

另一个方面提供包含核小体的组合物，所述核小体包含选自含有SEQ ID.NO:1-115的序列的核苷酸序列。另一方面提供用于实施本文所述的方法的试剂盒。在一个实施方案中，所述试剂盒包含一种或多种标准物，所述一种或多种标准物包含多种表位和含条形码的标准分子。在另一个实施方案中，所述试剂盒包含至少一种识别所述多种表位中的至少一种的亲和剂。

附图说明

图1是校准的染色质免疫沉淀实验实施方案之一H3K4me3ICe-ChIP-seq的示意图。

图2示出了带条形码的半合成核小体的设计和制备。示意性描述了半合成H3K4me3核小体梯状物(nucleosome ladder)的重构：纯化组蛋白八聚体，其通过重折叠等摩尔的核心组蛋白从重组来源和半合成来源产生，然后将组蛋白八聚体与等量的带条形码的梯状DNA(ladder DNA)混合。基于601定位核小体序列图示了带条形码的核小体定位DNA序列。

图3：(A)利用2×连续稀释系列用qPCR测量每个循环带条形码的梯状DNA(ladderDNA)的扩增，用线性回归拟合(拟合的R₂示于每个条中)。(B)在用与测序衔接子杂交的引物连接所述测序衔接子后，每个循环所有带条形码的DNA梯状成员相对于天然基因组DNA片段的扩增。

图4：mESCs E14细胞系的H3K4me3ICe-ChIP-seq表明组蛋白修饰密度在所预期的范围内。最上面的图表示mESC E14细胞系中HOXA基因簇的实际H3K4me3组蛋白修饰密度作为Chr6染色质坐标的函数。ICeChIP结合Illumina配对末端测序显示了E14mESC细胞系中Hoxa基因簇上每碱基对的H3K4me3修饰密度(HMD，深色线，95％置信区间，浅色线)作为染色体坐标的函数。编码基因和非编码基因用每个图下面的线条(bars)和方向箭头标出。下面的小峰代表以原始读序计数(raw read cont)表示的H3K4me3ChIP信号(上图)(top)和输入信号(下图)。

图5：ICeChIP的关键考验(A)条形码标签的相对丰度归一化为在IP中测量到的最丰富的梯状成员和来自HEK293H3K4me3ICeChIP-seq的输入。(B)ICeChIP-seq与ddPCR和qPCR相比：中间线代表mESC E14细胞系中未修正的H3K4me3组蛋白修饰密度(HMD)±95％CI(上面的线和下面的线)作为染色体窗口(chromosomal window)的函数。线条分别代表由ddPCR和qPCR测量的H3K4me3，HMD标度(HMD scale)相同(误差条为95％CI)，位于所示的扩增子之上。

图6：ICeChIP是可高度再现的并且比传统ChIP更好地防止(robust to)实验差异。(A)通过将单核小体HMD平均值(％H3K4me3)绘制成图比较两个样品(S1和S2)在同一基因座上所识别的峰的散点图。(B)通过ICeChIP-qPCR测量的mESC中DNMT3a基因座上的HMD(％H3K4me3)和富集(％IP/输入，代表呈现ChIP数据的常规方式)作为固定的10μg染色质输入的抗体-树脂缀合物的函数。

图7：ICeChIP的可再现性和稳健性(robustness)。(A)比较果蝇(Drosophila)S2细胞两次针对H3K27me3的ICeChIP实验，两次实验的输入相同，但是IP和洗涤有很大的差异。使用标准ICeChIP条件(输入与树脂-Ab缀合物孵育15分钟，然后在50分钟内洗涤5次)得到样品1数据，而用更短的孵育和在一分钟时间内用相同体积流动洗涤树脂来实施样品2IP。每个数据点对应3000bp非重叠窗口的平均H3K27me3(N＝41158)；将输入深度(inputdepth)不足的窗口从分析中排除掉(截止值(cut-off)＞5)。对于每个试验方案，从一式三份的技术实验采集数据(单独的IP和测量)。

图8：具有多种内标物的ICeChIP。用于小型ICeChIP实验的染色质输入滴定法如图9所示。该方法对等同于400个细胞的染色质效果很好。

图9：具有多种内标物的ICeChIP揭示了原位IP的特异性。(A)比较5个多标准物ICeChIP-seq实验中的内标物捕获(未修饰的，H3K4me3、H3K9me3、H3K27me3、H3K36me3、带有条形码的核小体梯状物同时以等摩尔浓度掺入的H3K79me2)，使用针对每种甲基标记物的抗体。以相对IP效率表示的、归一化为靶上(on-target)梯状物的数据使得能够容易地比较潜在的脱靶甲基化核小体以及未修饰的核小体。(B)计算mESC的多标准物ICeChIP实验中的IP-富集，其表示为IP中原始梯状成员读出计数相对于靶上标记输入，以及对于H3K4me3的最高脱靶背景梯状物(活性基序AM39159)。(C)H3K9me3(M309M3-A(Hattori et al.,2013))，(D)H3K27me3(Millipore 07-449)。

具体实施方式

除非另有定义，本文使用的所有技术术语和科学术语的含义与本发明所述领域的普通技术人员所通常理解的含义相同。在有冲突的情况下，以本申请文件为准，包括定义。虽然下文描述了优选的方法和材料，但是与本文描述的方法和材料类似或等价的那些可用于实践或测试本发明。

在描述本发明的上下文(尤其在接下来的权利要求的上下文中)，术语“一个(a)”和“an(一种)”和“所述(the)”以及类似提法的使用被解释为包括单数和复数，除非本文另有说明或明显与上下文冲突。本文记载值的范围仅仅意在作为一种便捷的方式单独提及落入该范围内的每个单独的值，除非本文另有说明。每个单独的值被并入本说明书，就如同它们被单独记载在本文中。本文描述的所有方法可以任何合适的顺序实施，除非本文另有说明或明显与上下文冲突。本文提供的任意或任何举例或例示性文字(例如，“如”、“例如”)的使用仅意在更好地阐释本发明，而不限制本发明的范围，除非另有说明。说明书中的所有文字都不被解释为表明任何非请求保护的元素是实施本发明所必需的。

I)定义

术语“表位”是指生物分子上可引起亲和剂结合的任何位点。亲和剂可识别生物分子或生物分子片段的线性序列、生物分子或生物分子片段的形状、生物分子或其片段的化学物理性质，或它们的组合。

“氨基酸”在本文中可以用其公知的三字母符号或以IUPAC-IUB BiochemicalNomenclature Commission(IUPAC-IUB生化命名委员会)推荐的单字母符号来提及。蛋白质或肽的氨基酸残基缩写如下：苯丙氨酸是Phe或F；亮氨酸是Leu或L；异亮氨酸是Ile或I；甲硫氨酸是Met或M；缬氨酸是Val或V；丝氨酸是Ser或S；脯氨酸是Pro或P；苏氨酸是Thr或T；丙氨酸是Ala或A；酪氨酸是Tyr或Y；组氨酸是His或H；谷氨酰胺是Gln或Q；天冬酰胺是Asn或N；赖氨酸是Lys或K；天冬氨酸是Asp或D；谷氨酸是Glu或E；半胱氨酸是Cys或C；色氨酸是Trp或W；精氨酸是Arg或R；甘氨酸是Gly或G。

术语“氨基酸”是指天然存在的氨基酸和非天然氨基酸，以及以类似于天然存在氨基酸的方式起作用的氨基酸类似物和氨基酸模拟物。天然编码的氨基酸为20种常见氨基酸(丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸和缬氨酸)和吡咯赖氨酸和硒代半胱氨酸。氨基酸类似物是指基本化学结构与天然存在的氨基酸相同的化合物，即，碳结合于氢、羧基、氨基、和R基团，例如高丝氨酸、正亮氨酸、甲硫氨酸亚砜、甲硫氨酸甲基锍。这种类似物具有修饰的R基团(如正亮氨酸)或修饰的肽骨架，但保留了与天然存在的氨基酸相同的基本化学结构。

至于氨基酸序列，本领域技术人员会认识到，对核酸、肽、多肽或蛋白序列的单独取代、缺失或添加(改变、添加或缺失所编码的序列中的单个氨基酸或少部分氨基酸)是“保守修饰的变体”，其中所述改变导致氨基酸被化学上类似的氨基酸取代。提供功能类似氨基酸的保守取代表是本领域不同技术人员所知晓的。除了这种保守修饰变体之外，也不排斥本文所述的物质(agent)的多态变体、种间同源物/直向同源物，以及等位基因。

本文使用的“抗原”可以具有5个以上氨基酸的任意氨基酸片段(修饰的或未修饰的)，其被抗体识别或可产生识别其的抗体。在某些实施方案中，抗原可包含氨基酸修饰例如乙酰化、甲基化(例如单甲基化、二甲基化、三甲基化)、磷酸化、泛素化(例如单泛素化、二泛素化、三泛素化、多泛素化)、类泛素化(sumoylation)、ADP-核糖基化、瓜氨酸化(citullination)、生物素化以及顺反异构化。在其他实施方案中，抗原可包含特定的突变例如点突变。在其他实施方案中，抗原可包含野生型氨基酸序列。

术语“多肽”、“肽”和“蛋白质”在本文中互换使用，指的是氨基酸残基的聚合物。也就是说，对多肽的描述等同地适用于对肽的描述和对蛋白质的描述，反之亦然。所述术语适用于天然存在的氨基酸聚合物以及其中一个或多个氨基酸残基为非天然氨基酸的氨基酸聚合物。如本文所用，所述术语涵盖任意长度的氨基酸链，包括全长蛋白，其中氨基酸残基通过共价肽键和/或伪肽键(pseudopeptide bond)连接。

术语“翻译后修饰”是对天然或非天然氨基酸的任何修饰，在体内和体外，在这样的氨基酸被纳入多肽链之后所述修饰发生或将会发生在该氨基酸上。这样的修饰包括，但不限于，乙酰化、甲基化(例如单甲基化、二甲基化、三甲基化)、磷酸化、泛素化(例如单泛素化、二泛素化、三泛素化、多泛素化)、类泛素化、ADP-核糖基化、瓜氨酸化、生物素化以及顺反异构化。可通过合成引入例如化学法引入(，在多肽合成期间)或酶法引入(在多肽合成或多肽纯化之后)这样的修饰。

术语“免疫沉淀(IP)富集”是指来自经免疫沉淀样品的内标物读数除以来自输入样品的内标物读数。

术语“不对称的”是指组蛋白的二聚体内的一个组蛋白含有翻译后修饰的核小体。例如，三甲基修饰存在于一个组蛋白H3的9位赖氨酸上，而不存在于二聚体内的第二个H3上。

术语“对称的”是指组蛋白二聚体的两个组蛋白均含有翻译后修饰的核小体。例如三甲基修饰存在于两个组蛋白H3的9位氨基酸上。

II)内标物校准的ChIP(ICeChIP)

目前实施的拉下试验存在测量结果的单位是任意的这一问题，这使得任意类型拉下实验间的任意类型的比较是高度不准确的并且妨碍拉下试验在医学诊断和医学研究中的使用。通过将测试结果数值从该试验中分离出来并将所述测试结果数值与实际生物现象结合用具有绝对单位的标准化标度(standardized scale)来改善数据阐释的精确度。本发明的一个方面提供使得能够在医学诊断中例如鉴定疾病标记物的试验中使用拉下测试的材料和方法。在这些方法中，拉下试验例如ChIP所得的数据不通过试验专用的任意值来表征，而是通过疾病标记物本身专用的绝对值来表征。这意味着不同样品的拉下试验、同一样品的不同拉下试验、不同表位的拉下试验、在不同实验室中实施的拉下试验的结果可容易且直接地进行相互比较，这对于目前可用的方法和技术常常是不可能的。

本发明的一个方面包括绝对评估结合DNA的蛋白、蛋白同种型以及蛋白翻译后修饰密度的方法，其称为内标物校准的ChIP(ICeChIP)。该方法在有生物学价值范围内提供对组蛋白修饰的第一局部测量。该ChIP的改善利用了非天然存在内标物，该内标物可与ChIP读数进行比较。作为内标物，已经开发了重组蛋白质-DNA复合物和半合成蛋白质-DNA复合物，所述重组蛋白质-DNA复合物和半合成蛋白质-DNA复合物被设计为含有具有类天然亲和力、特异性和抗体亲抗原性特性的表位。

这些蛋白质-DNA复合物包括带有对亲和剂有类天然亲和力、特异性和抗体亲抗原性的蛋白表位的核小体以及含有标准识别分子的DNA序列，所述标准识别分子包含定位序列以及独特的序列或条形码。“条形码”提供特异性识别DNA-蛋白质复合物的独一无二的方法，例如可以为鉴定特定标准半合成核小体的身份和/或浓度的核苷酸序列例如DNA、多肽、荧光团、发色团、RNA序列、锁核酸序列、亲和标签等。在此，术语“类天然的”是指亲和力、特异性和抗体亲抗原性与天然存在的表位相似的任何蛋白表位。

图1示出了ICeChI试验的一个实施方案。在该示意图中，将标准物的半合成核小体梯状物-具有携带4位赖氨酸N6,N6,N6-三甲基化的修饰的组蛋白H3-以所定义的浓度(由每种独特的DNA条形码编码)掺杂至天然核小体的库中，所述天然核小体分离自人细胞核并通过用微球菌核酸酶进行核内消化而释放出来。然后使掺杂梯状物的库的样品经受免疫沉淀(IP)、DNA纯化和下一代测序。保留掺杂梯状物的库的另一份样品作为输入样品，其不经受免疫沉淀。在此，免疫沉淀(IP)或“拉下”是指纯化包含一个或多个目标表位的染色质、核小体、DNA-蛋白质复合物或蛋白质的方法或技术，其中所述表位与对表位有特异性的亲和剂接触并与所述库的其他组分分离开来。

对经免疫沉淀的样品和输入样品实施能够读取并量化DNA序列的方法。基于参考基因组对回收的DNA片段定位(mapped to)至相对基因组位置，并测量从IP(使用亲和剂通过免疫沉淀产生的样品)和输入(不经受免疫沉淀的样品)中回收的DNA基因组中每个碱基对的这些片段的丰度。对于用于制备半合成核小体的独特核苷酸序列，对测序数据中的同一读序(read)进行计数。IP和输入中半合成核小体的丰度的比例用于测量IP效率，IP和输入中任意基因组基因座的DNA片段的丰度的比例用于测量相对丰度。所得的所添加的半合成核小体的标签计数构成获得基因组范围上天然核小体的组蛋白修饰密度的校准曲线。带有100％修饰的半合成核小体梯状物的平均IP-富集度(enrichment)比例用作带有同一表位的天然染色质的修正标量(scalar correction)从而以比例的比例计算所期望的基因组间隔内修饰的量。随后，将IP效率应用于相对富集度从而以碱基对分辨率(base pairresolution)测量整个基因组内H3K4me3组蛋白翻译后修饰的组蛋白修饰密度。

在一些实施方案中，具有类天然亲和力、特异性和抗体亲抗原性的蛋白表位包括具有翻译后修饰的蛋白同种型和/或蛋白。例如，表位可以是在所述试验中测量其密度的组蛋白修饰或具有类似结合特性的表位。在优选的实施方案中，DNA-蛋白质复合物的蛋白部分是核心组蛋白八聚体复合物，其含有核心组蛋白H2A、H2B、H3、H4。这些序列描述于第US2013/044537号的专利申请中，该申请通过引用的方式并入本文。为了再现蛋白表位对任意上述核心组蛋白的类天然亲和力、特异性和抗体亲抗原性，可由包括表1a-f中列出的那些的任意组蛋白变体来表示。在本发明的一个实施方案中，蛋白表位可以是组蛋白的片段。

在本发明的另一个方面，蛋白质-DNA复合物包含标准识别分子，所述标准识别分子包括但并不限于定位序列和独特的序列或条形码。包含蛋白定位序列使得能够通过与蛋白的特定的类天然相互作用来形成DNA-蛋白质复合物。在优选的实施方案中，蛋白定位序列是核小体定位序列。在一个实施方案中，定位序列包含具有至少146个碱基对的天然或合成双链DNA序列。在一个更优选的实施方案中，蛋白定位序列为“601-Widom”序列-通过选择展现出对核小体的亲和力的序列制备的合成核小体结合序列。虽然此处提及“601-Widom”序列作为核小体定位序列，但是本申请实施方案涵盖使用展现出对核小体的亲和力的其他这样的合成序列和天然序列。

独特的序列，即条形码，使得能够特异性鉴定天然DAN-蛋白质复合物的库或池中的DNA-蛋白质复合物。在一些实施方案中，独特的序列可以被另一种特异性识别方式例如多肽、荧光团、发光团、RNA序列、锁核酸序列、亲和标签等所替代。在一个方面，独特的序列可通过已知的核苷酸分析例如下一代测序、qPCR或ddPCR进行分析。独特的序列和定位序列可能是同一序列，并作为识别分子起双重作用。独特的序列可位于定位序列的5’-末端、定位序列的3’-末端或定位序列的两端。

在优选的实施方案中，独特的序列是双链体DNA序列，其具有能够维持与正在被研究的有机体的基因组序列以及可能存在于样品中的所有其他序列相距至少1个海明距离(Hamming distance)的最小长度。在更优选的实施方案中，为了保证在天然基因组序列环境中明显区分条形码，每个条形码由不存在于人和小鼠基因组中的两条11碱基对(bp)序列制备(Herold et al.,2008)，其中11bp序列是保证与人和小鼠基因组至少一个海明距离的最短序列。在另一个实施方案中，条形码序列为不存在于细胞基因组中的序列。在另一个实施方案中，条形码序列是自然中不存在的序列。虽然此处提及11bp对于对人和小鼠的至少1个海明距离的最短的可能序列，但是存在可成功用作上述独特的序列且具有至少1个海明距离的无数更长的序列。而且具有对于其它有机体基因组的至少1个海明距离的独特序列的最短序列可能短于11bp，正因为如此，短于11bp的序列可能成功用于这些有机体。条形码是分子，在优选的实施方案中，它是可通过已知DNA分析法分析的DNA，所述已知的DNA分析法包括但不限于下一代测序和PCR。条形码序列编码给定内标核小体的浓度和/或密度。

在优选的实施方案中，独特核苷酸序列指示给定内标物的浓度和身份。在本发明的一个方面，独特序列包含至少或至多10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90或100个碱基对的长度。在另一个实施方案中，定位序列和独特序列的总长度为至少100个碱基对。在优选的实施方案中，定位序列和独特序列选自表7。在一个方面，独特序列为耐微球菌核酸酶(micrococcal nuclease resistant)的序列。在本发明的一个实施方案中，包含但不限于定位序列以及独特序列或条形码的标准分子包括SEQ IDNO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14或SEQ ID NO:15。在优选的实施方案中，包含但不限于定位序列以及独特序列或条形码的标准分子包括SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ IDNO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ IDNO:37、SEQ ID NO:38、SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ IDNO:43、SEQ ID NO:44、SEQ ID NO:45、SEQ ID NO:46、SEQ ID NO:47、SEQ ID NO:48、SEQ IDNO:49、SEQ ID NO:50、SEQ ID NO:51、SEQ ID NO:52、SEQ ID NO:53、SEQ ID NO:54、SEQ IDNO:55、SEQ ID NO:56、SEQ ID NO:57、SEQ ID NO:58、SEQ ID NO:59、SEQ ID NO:60、SEQ IDNO:61、SEQ ID NO:62、SEQ ID NO:63、SEQ ID NO:64、SEQ ID NO:65、SEQ ID NO:66、SEQ IDNO:67、SEQ ID NO:68、SEQ ID NO:69、SEQ ID NO:70、SEQ ID NO:71、SEQ ID NO:72、SEQ IDNO:73、SEQ ID NO:74、SEQ ID NO:SEQ ID NO:75、SEQ ID NO:76、SEQ ID NO:77、SEQ IDNO:78、SEQ ID NO:79、SEQ ID NO:80、SEQ ID NO:81、SEQ ID NO:82、SEQ ID NO:83、SEQ IDNO:84、SEQ ID NO:85、SEQ ID NO:86、SEQ ID NO:87、SEQ ID NO:88、SEQ ID NO:89、SEQ IDNO:90、SEQ ID NO:91、SEQ ID NO:92、SEQ ID NO:93、SEQ ID NO:94、SEQ ID NO:95、SEQ IDNO:96、SEQ ID NO:97、SEQ ID NO:98、SEQ ID NO:99、SEQ ID NO:100、SEQ ID NO:101、SEQID NO:102、SEQ ID NO:103、SEQ ID NO:104、SEQ ID NO:.105、SEQ ID NO:106SEQ ID NO:107、SEQ ID NO:108、SEQ ID NO:109、SEQ ID NO:110、SEQ ID NO:111、SEQ ID NO:112、SEQID NO:113、SEQ ID NO:114或SEQ ID NO:115。

在本文描述的测定表位密度的方法的一个实施方案中，将一组具有标准识别分子的上述半合成核小体掺杂至一些天然核小体中。该半合成核小体组可包含具有标准识别分子、带有多于一种表位但含有至少一种目标表位的半合成核小体。例如，一组半合成核小体可带有翻译后修饰，即H3K9me3，以及保守表位或不变表位，例如组蛋白的多肽序列。或者，一组半合成核小体可带有多于一种翻译后修饰，例如H3K9me3或插入第二表位。在另一个方面，该组标准物包含具有假阳性表位的类天然亲和力、特异性和抗体亲抗原性的至少一种半合成的DNA结合蛋白、重构的DNA结合蛋白或含变体的DNA结合蛋白，所述假阳性表位不同于目标表位。在优选的实施方案中，一组半合成核小体或含变体核小体包含至少一种具有真阳性表位的类天然亲和力、特异性和抗体亲抗原性的核小体以及至少一种具有假阳性表位的类天然亲和力、特异性和抗体亲抗原性的核小体。

为了从蛋白质-DNA复合物池纯化天然核小体或半合成核小体的群，人们可使用亲和捕获步骤，在该步骤中亲和剂识别核小体的不变片段例如组蛋白。在一个方面，接触目标表位的亲和剂包括抗体、单克隆抗体、适配体、Fab或结合肽。纯化核小体群的方法可应用于单独的半合成核小体、单独的天然核小体，或掺杂有半合成核小体的天然核小体。

ICe-ChIP数据分析

在一个实施方案中，为了实施ICe-ChIP，将一组上述内标物掺杂至一些天然DNA-蛋白质复合物中，所述内标物可与ChIP读数(read-out)进行比较。下面描述如何用这些标准物计算标准IP效率，然后根据所研究的表位是否为不变蛋白片段、蛋白同种型或蛋白翻译后修饰，进而用该标准IP效率计算蛋白或表位密度(PD)、蛋白变体密度(PVD)或蛋白修饰密度(PMD)。基于具有类天然亲和力、特异性和抗体亲抗原性的半合成或含变体核小体的标准物通过使人们能够对组蛋白修饰密度(HMD)或组蛋白变体密度(HVD)进行绝对定量来改善染色质免疫沉淀。

组蛋白修饰密度是标准化的标度(scale)，定义为给定基因组位置内所有核小体中带有特定表位的核小体的表观百分比(apparent percentage)。组蛋白修饰密度以类比标度(analog scale)表示，所述类比标度的范围为从意味着表位不存在的0％至意味着表位饱和存在的100％。例如，GAPDH基因核小体+1(转录起始位点下游第一个核小体)的90％H3K4me3组蛋白修饰密度应被理解为，在构成GAPDH基因启动子上核小体+1的所有组蛋白H3分子的群中，它们中有90％带有组蛋白H3的4位赖氨酸的N6,N6,N6-三甲基化(H3K4me3)翻译后修饰，10％应没有H3K4me3。虽然针对为约147bp的跨越(spanning)单个核小体的基因组区域给出了该实例，但同样的方法可应用于从单个碱基对到整个基因组的任意的基因组范围。

为了计算蛋白密度或表位密度，人们需要知晓4项内容：基因组基因座大小、表位丰度、总蛋白丰度以及免疫沉淀效率(“IP效率”)。基因组基因座大小由使用者定义，其范围可以为从单个碱基对到整个基因组。表位丰度定义为基因组基因座范围内表位的丰度。通常通过量化结合至DNA-蛋白质复合物的DNA的量来推断丰度，因为其与蛋白质有化学计量关系；DNA易于用多种方法进行量化，例如PCR、RT-PCR、ddPCR、下一代测序、杂交、放射自显影、荧光标记、光密度和插入荧光探针等。然而，还可通过用光密度、荧光、放射自显影、质谱、比色试验、多肽全分解等测量蛋白质浓度来直接测量丰度。

在其中特异性亲和剂识别表位的亲和捕获步骤之后测量表位丰度，在该亲和捕获步骤之后，将表位-亲和剂复合物与DNA-蛋白质复合物的未结合群分离开。很多时候，通过将表位-亲和剂复合物固定在表面上并洗掉DNA-蛋白质复合物的未结合群来将表位-亲和剂复合物与未结合的核小体分离开。总蛋白丰度定义为给定基因组基因座范围内所有给定类型的形成DNA-复合物的蛋白的丰度。用与表位丰度相同的方法测量总蛋白丰度。

为了从其他蛋白质-DNA复合物纯化核小体群，人们可使用其中亲和剂识别核小体的不变片段例如组蛋白的亲和捕获步骤。然而，如果给定的参与形成蛋白质-DNA复合物的不变片段在所考虑的基因组基因座大小(size)内是占支配地位的，那么在假设其他蛋白质-DNA复合物的群无关紧要的情况下可跳过针对总蛋白群的亲和捕获步骤。表位丰度与总蛋白丰度的比例应给出每蛋白表位密度。然而这相当少见，因为亲和捕获步骤是100％有效的，如果利用了两个或多个亲和捕获步骤，那么它们的捕获效率很少会彼此相同。为了解决这一问题，人们需要知晓表位丰度与总蛋白丰度测量之间的相对IP效率。

“IP”效率是指一个或多个拉下试验之间表位的相对回收率。知晓标准物的IP效率使得能够通过修正一次或多次拉下试验之间回收率的差异来进行绝对定量。在一个实施方案中，通过使用一组具有与天然表位相同的亲和力、特异性和抗体亲抗原性且在复合物混合物中的丰度易于测量的上述标准物来测量上述IP效率。将这些半合成标准物掺杂至天然DNA-蛋白质复合物的池中，该天然DNA-蛋白质复合物池的样品将经受亲和捕获。该步骤之后，用提及的丰度测量方法中的一种对半合成标准物和天然DNA-蛋白质复合物群进行上述表位丰度和总蛋白密度测量。在一个实施方案中，该标准物组包括以不同浓度添加的标准物。在此，添加浓度被条形码唯一地鉴定出来。

在一个实施方案中，可通过对结合至DNA-蛋白质复合物的DNA进行定量来测量标准DNA-蛋白质复合物和天然DNA-蛋白质复合物的表位丰度。在优选的实施方案中，IP中给定标准条形码的表位与半合成核小体输入原料的比例等于标准IP效率。或者，该标准IP效率可计算为表位特异性IP中条形码丰度与总蛋白丰度(对于组蛋白H3，例如抗-H3总IP中的条形码计数)的比例。一旦计算出IP效率，就可将该标准IP效率应用于任何基因组基因座的IP/输入DNA比例或IP-表位/IP-总蛋白比例。这通过将基因组IP效率即IP中表位丰度(亲和步骤中捕获的给定基因组间隔的DNA的量)与输入中存在的同一间隔内DNA的量的比例除以标准IP效率计算出来。或者这可计算为对于上述任何基因组基因座，IP中给定基因组DNA片段除以总表位丰度IP中同一物质(species)的量然后除以标准IP效率。所得的值为蛋白密度或表位密度(PD)，也称为蛋白变体密度(PVD)或蛋白修饰密度(PMD)。

修正脱靶特异性

分析拉下实验所面临的另一问题是源于拉下试验中所用亲和剂的脱靶特异性进行预测的精确度较低。术语“假阳性”和“脱靶”是同义词，是指表位杂乱地或非特异性地接触亲和剂或不正确的结果。术语“真阳性”和“中靶(on-target)”是同义词，是指感兴趣的表位或正确的结果。

假阳性表位的发生率在拉下试验之间是不同的，并且取决于亲和剂的质量(其固有的对所期望表位的结合亲和力相对于其对其他相关表位的亲和力)、天然染色质中靶表位和脱靶表位的富集度、拉下试验中亲和剂的能力与DNA-蛋白质复合物装载水平的比例以及进行拉下试验的其他条件。对于不同的亲和剂，中靶结合和脱靶结合以不同程度促成表观ChIP信号，在用常规ChIP进行的给定试验中，每种来源作出何种程度的贡献是未知的。在不知晓脱靶结合的丰度的情况下，人们不能决定所观察到的表位丰度是明显的还是不明显的，这进而使得在医学诊断和医学研究中使用拉下试验是不切实际的。本发明人已发现，原位量化拉下试验中假阳性表位和真阳性表位的IP效率的方法，该方法改善了数据阐释的精确度，因为可容易地计算阳性预测值(PPV)。PPV使得能够以一定的可靠度估计被认为是真阳性的表位的最小丰度。

使用上述计算IP效率和标准IP效率的方法，可计算阳性预测值(PPV)，也称作精确度。知晓PPV简化了任何数据分析因为其使得能够估计蛋白密度的任意差异是明显的还是不明显的，这是目前可用的方法和技术所不能实现的。

ηTP为真阳性表位的IP效率，α为真阳性表位的给定重量，ηFP为假阳性表位也称为脱靶表位的IP效率，β为假阳性表位的重量。在缺乏重量分布现有知识的情况下，α＝β＝1。存在该等式的其他变形形式。假阳性和真阳性表位发生率知识的使用可用于其他应用。

有两种校准ChIP的备选方法：使用外标的总组蛋白修饰密度校准以及直接的内标校准。如这项工作中主要采用的相对内标方法，这两种方法给出以“组蛋白修饰密度”单位表示的结果，其等于所检测的表位与给定基因座中可得的所有其他表位的表观比例。

总组蛋白修饰密度校准依赖于测量修饰相对于组蛋白的量的总比例，例如知晓为K4三甲基化的所有H3的百分比。该总组蛋白修饰密度，获自质谱或定量蛋白质印迹测量，可随后在任何给定基因座的对输入深度校准的IP峰中重新分布。该方法的缺陷除了进行总丰度测量中的相当大的误差(例如MS精确度加上可能不能观察到修饰的所有潜在形式的不确定性)之外还有需要通过正交法对ChIP中使用的相同核小体样品进行这样的外部测量，并且两种技术的样品处理损失是误差的主要来源。尤其是，IP效率从不是100％(尤其是其可以小很多)，因此IP效率偏离理论最大值的程度将反映在明显增高的表观HMD值上。

直接内标校准通过ChIP法测量掺入的带条形码的核小体标准物的标签数，知晓输入中每种内标梯状物成员的精确摩尔浓度以推断原始样品中所探测的表位的绝对摩尔丰度。这种校准受到经受微球菌核酸酶消化的细胞核数量的计数精确度和有偏差的损失的限制，从良好量化的数目转为(mount on the way)彻底片段化的染色质分离物。因为在高度优化的消化条件和分离条件下从经消化的核酸中回收仅略高于80％的核酸，所以存在由有偏差的基因组回收造成的系统性误差(Henikoff et al.,2009)。

该实施方案的另一优点是通过解以下矩阵方程式：A*x＝b从假阳性表位信号中去卷积(deconvolute)真阳性表位信号，在此以组蛋白修饰密度为例示出。对于所指示的数据集，通过解以下矩阵方程式：A*x＝b对ICeChIP-seq跟踪数据(track)进行脱靶特异性(off-specificity)修正。

本发明的另一个实施方案描述了通过解以下矩阵方程式：A*x＝b从假阳性表位信号中去卷积(deconvolute)真阳性表位信号的方法，在此以组蛋白修饰密度为例示出：

其中，x是经修正的HMD得分矩阵，A是修正系数矩阵，b是未修正的HMD得分矩阵，其中t是在使用针对来自“a”到“z”(上标)组蛋白标记组的组蛋白标记的抗体的免疫沉淀中，针对来自“a”到“z”(下标)组蛋白标记组的组蛋白标记的特异性的修正系数；HMD是从第一基因座到第n基因座给定组蛋白标记(“a”到“z”)的组蛋白修饰密度；HMD(Cor)是从第1基因座到第n基因座给定组蛋白标记的经修正的组蛋白修饰密度

其中，t是在使用针对来自“a”到“z”(上标)组蛋白标记组的组蛋白标记的抗体的免疫沉淀中，针对来自“a”到“z”(下标)组蛋白标记组的组蛋白标记的特异性的修正系数；HMD是从第1基因座到第n基因座给定组蛋白标记(“a”到“z”)的组蛋白修饰密度；HMD(Cor)是从第1基因座到第n基因座给定组蛋白标记的经修正的组蛋白修饰密度

其中，和是指IP或输入中给定条形码的丰度，上标是指产生针对其的抗体的组蛋白标记，下标是指被拉下的半合成核小体上的标记。

疾病诊断

临床不采用常规ChIP试验的主要原因是，它们常常因为微弱的处理差异和变化的抗体特异性而不可再现，使得实验之间IP的富集％变化很大，并且使得客观公正的比较是有问题且不可靠的。利用具有经受对变化敏感的ChIP步骤的内标，如6A、表6B和表7A所表明的，ICe-ChIP在结果的重复性和可靠性方面要稳健很多，可容易地比较数值，因为HMD是通过与良好定义的内标进行直接原位比较得到的通用的生物相关标度。

组蛋白修饰和其他表观遗传机制对于调节基因活性和细胞过程是关键的。不同的组蛋白修饰调节不同的过程，例如转录、DNA复制和DNA修复。这些修饰中任一修饰的解除调节(deregulation)可改变基因表达平衡，导致异常的表观遗传模式和细胞异常。例如，已经在各种癌症中检测到组蛋白翻译后修饰和变体的变化，并且已知异常修饰模式在某些情况下是疾病的驱动者(Daigle et al.,2011；Chi et al.,2010)。

本发明的材料和方法可用于与组蛋白翻译后修饰的变化相关的任何疾病的诊断、预后、分类、疾病风险预测、复发检测、选择疗法以及评估疗效，所述任何疾病包括患者例如人类患者中的癌症。这种分析还可与患者细胞或诱导多能性干细胞的离体(ex vivo)培养结合以评估给定的产生真正多能性干细胞的去分化实验方案或使干细胞分化成特定细胞类型的实验方案的适用性。

可检测到任何发展期，例如原发性癌、转移癌和复发性癌。有关多种类型的癌症的信息可从例如American Cancer Society(美国癌症协会)(可在万维网的cancer.org上找到)或从例如Harrison's Principles of Internal Medicine(哈里森内科学),(2005)中找到。

本发明的某些方面提供疾病诊断的方法，例如评估患者患癌症的可能性、将病期分类、监测癌症患者中治疗的疗效。这种方法基于以下发现：ICe-ChIP可用于校准ChIP实验以控制处理差异(handling difference)和抗体可变性。因此，通过测定取自患者的细胞中特定组蛋白PTM(参见，例如表1)包括本文描述的甲基化组蛋白的水平，有可能确定患者是否有患上特定疾病的风险或已经患上特定疾病。例如，如本文所述，癌组织中组蛋白PTM水平的量化可用于癌症预后或癌症诊断。

在本发明的许多实施方案中，本发明某些方面中描述的材料和方法可用于检测给定基因组基因座上生物样品中组蛋白PTM或变体的水平，从而检测生物样品中是否存在病变细胞。在一些实施方案中，生物样品包括来自疑似含病变细胞例如癌细胞的组织的组织样品。可通过本领域已知的任何手段获得人类染色质DNA样品。在要检测特定表型或疾病的情况下，应从目标(of interest)组织即血细胞或视情况从脑脊髓液制备含组蛋白的样品。例如可由活检组织制备含组蛋白的样品以检测与癌症相关的组蛋白PTM状况。

视情况而定，可通过本领域已知的任何方法包括外科手术来获得组织或细胞。在其他实施方案中，可分析已知含有癌细胞的组织样品例如来自肿瘤的样品在一个或多个组蛋白PTM位点例如表1所述的那些位点上组蛋白PTM的存在或量，以确定与所述疾病相关的信息，例如某些疗法的疗效，个体的存活预期、特定类型的疾病的存在等。在一些实施方案中，所述方法可与另外的预后方法或诊断方法例如检测其他疾病标记物等结合使用。

本发明的某些方面的材料和方法可用于评估已知或疑似患病包括癌症的个体或用作常规临床测试，例如在未必疑似患病的个体中。可实施其他诊断试验以确认个体的疾病状态。

本发明的方法和材料可进一步地用于评价治疗疗程的疗效。可通过使用本文描述的方法和材料随时间监测患病的哺乳动物中的组蛋白翻译后修饰或变体沉积来评估治疗疗效。例如，治疗后从哺乳动物取出的生物样品中本文描述的任一种甲基化生物标记的组蛋白修饰的水平与治疗前或治疗前期从该哺乳动物取出的样品中的水平相比减少或缺失，这表明治疗有效。本文所述的组蛋白PTM的检测可单独或与其它标记物联合用于疾病的诊断或预后。

某些实施方案的材料和方法可用于确定患病哺乳动物的最佳治疗疗程。例如，本文描述的一些甲基化生物标记中存在甲基化组蛋白标记或某些甲基化生物标记中甲基化的量增加可表明患癌哺乳动物的预期存活寿命降低，从而表明对哺乳动物更积极的治疗。另外，如本文所述，可容易地建立甲基化生物标记上甲基化的存在、缺失或其量与一种或多种抗癌剂的相对疗效之间的关联。例如，可回顾性进行这种分析，即，通过使用本文所述的材料和方法检测先前从哺乳动物-该哺乳动物随后经受一种或多种抗癌剂治疗-取出的样品中一种或多种甲基化生物标记中的甲基化并将已知的治疗疗效与如上所述的一种或多种甲基化生物标记的甲基化的存在、缺失或水平相关联。

在基于特定组蛋白PTM的存在、缺失或HMD进行诊断、预后、风险评价、分类、复发检测或疗法选择的过程中，可将PTM或变体的量与阈值进行比较，所述阈值将一次诊断、预后、风险评价、分类与另一次诊断、预后、风险评价、分类区分开来。例如，阈值可代表以所期望的灵敏度和特异性水平将癌症样品与正常活检样品充分区别开的组蛋白甲基化水平。在使用ICe-ChIP的情况下，阈值将不会根据所使用的抗体或处理条件而有所不同。阈值或阈值范围可通过如下确定，即使用ICe-ChIP测量病变样品和正常样品中特定目标组蛋白PTM，然后确定将至少大部分癌症样品从大部分非癌症样品中区分出来的值。

在一些实施方案中，所述方法包括基于从个体测定的组蛋白PTM状况记录诊断、预后、风险评价或分类。可考虑任何类型的记录，例如电子记录例如用计算机。

本发明的一些实施方案测定患者癌症中的组蛋白翻译后修饰状况。组蛋白翻译后修饰信息可用于癌症预后、癌症评价、癌症分类和/或癌症治疗。可用本文所述的方法检查的癌症可包括，但不限于，肾细胞癌、神经胶质瘤、胶质肉瘤、间变性星形细胞瘤、髓母细胞瘤、肺癌、小细胞肺癌、宫颈癌、结肠癌、直肠癌、脊索瘤、喉癌、卡波济氏肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、结肠直肠癌、子宫内膜癌、卵巢癌、乳腺癌、胰腺癌、前列腺癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、睾丸肿瘤、威尔姆斯瘤、尤文氏瘤、膀胱癌、血管肉瘤、内皮肉瘤、腺癌、汗腺癌、皮脂腺肉瘤、乳头状肉瘤、乳头状腺肉瘤、囊腺肉瘤、支气管癌、髓样癌、肥大细胞瘤、间皮瘤、滑膜瘤、黑色素瘤、平滑肌肉瘤、横纹肌肉瘤、神经母细胞瘤、视网膜母细胞瘤、少突神经胶质瘤、听神经瘤、血管母细胞瘤、脑膜瘤、松果体瘤、室管膜瘤、颅咽管瘤、上皮癌、胚胎癌、鳞状细胞癌、基细胞癌、纤维肉瘤、粘液瘤、粘液肉瘤、神经胶质瘤或脂肪肉瘤。

在某些实施方案中，可使用本发明的方法和材料诊断以下疾病：由幽门螺旋杆菌、单核细胞增生性李斯特菌、弗氏志贺菌、嗜吞噬细胞无形体、猫披衣菌、EB病毒、疱疹病毒、HIV、埃及血吸虫引起的细菌感染；肥胖症、糖尿病、心脏疾病、孤独症、脆性X综合征、ATR-X综合征、天使人综合征、普拉德-威利综合征、贝克威思威德曼综合征、雷特氏综合征、鲁宾斯坦-泰必氏综合症、Coffin-Lowry综合征、免疫缺陷-着丝粒不稳定-面部异常综合征、α地中海贫血、白血病、亨廷顿氏病、精神分裂症、双相型疾病、衰老、痴呆、阿尔茨海默氏病、帕金森氏病、德朗热综合征、歌舞伎综合征、干燥综合征、白癜风、进行性系统性硬化症、银屑病、原发性胆汁性肝硬化、克罗恩病和溃疡性结肠炎、桥本氏甲状腺炎、格雷夫斯病、炎性肠病、动脉粥样硬化和心脏肥大。

试剂和试剂盒

本发明的另一个方面提供用于实施本文所述方法之一的试剂和包含试剂的试剂盒。试剂可被包含在合适的包装或容器中。试剂盒可包括一种或多种本文描述的含标准物的试剂，所述标准物用于真阳性表位和假阳性表位的绝对定量，例如在拉下试验或染色质免疫沉淀试验中。试剂盒还可包括如本文所述的至少一种亲和剂例如抗体。标准物具有真阳性表位的类天然亲和力、特异性和抗体亲抗原性。试剂盒还可包含至少一种具有假阳性表位的类天然活性、特异性和抗体亲抗原性的标准物。

在另一个优选的实施方案中，上述标准物包括含半合成核小体的DNA-蛋白质复合物，所述半合成核小体由具有类天然亲和力、特异性和抗体亲抗原性的组蛋白、组蛋白同种型或组蛋白翻译后修饰与条形码分子组成。在各种实施方案中，在假定类天然亲和力、特异性和抗体亲抗原性得到维持的情况下，本领域已知的核心组蛋白序列的任意变体或包括表1中定义的那些的翻译后修饰可放置在含组蛋白八聚体的组蛋白上。在优选的实施方案中，一组标准物由具有真阳性表位的类天然亲和力、特异性和抗体亲抗原性的至少一种DNA复合物标准物以及具有涵盖DNA-蛋白质复合物天然集合体中存在的多种脱靶表位(假阳性表位)的具有类天然亲和力、特异性和抗体亲抗原性的多种DNA-复合物标准物。

在其他实施方案中，试剂盒可包括一种或多种在包装或容器中的洗涤缓冲液(例如磷酸盐缓冲盐水)和/或其它缓冲液。在其他实施方案中，试剂盒可包括分离所捕获的物质所必需的试剂，例如固相捕获剂包括例如连接有第二抗体或蛋白-A的顺磁颗粒。试剂盒还可包括测量所捕获的标准物或样品的量所必需的试剂。

当提供试剂盒时，不同的组分可包装在单独的容器中并在使用前立即混合。这样单独包装组分可容许长期保存而不损失活性组分的功能。试剂盒还可与说明材料一起提供。说明书可印在纸或其它基质上和/或可提供为电子可读介质。

实施例1：小鼠ESC E14细胞系的H3K4me3Ice-ChIP-seq

为了将染色质免疫沉淀归一化为生物学上有意义的标度，采用了用所定义的内标进行校准的分析化学概念。在常规天然ChIP中掺入带有翻译后修饰的重构核小体，所述重构核小体恰好类似于通过微球菌核酸酶片段化分离的其天然单核小体对应物(Brand etal.,2008)。图4示出了小鼠ESCE14细胞系HOXA基因簇的H3K4me3ICe-ChIP-seq。组蛋白修饰密度值落在所预期的范围内(0-100％)。如先前所示，H3K4me3主要富集在转录起始位点和增强子上。

在ICeChIP中，这种核小体内标采用的形式是同一修饰核小体的“梯状物”或浓度系列，区别仅在于短的带条形码的序列编码每个梯状物成员的相对浓度，从而可构建校准曲线。参见图2。

核小体内标的第二组成是一组在重构时与组蛋白八聚体稳定结合的带条形码的DNA物质，可容易地与基因组序列区分开来。构建了九个成员的DNA库，其由不变的“601”核小体定位序列(Lowary和Widom,1998)和可变的侧翼条形码序列组成，所选择的条形码序列是独特的且相对于随机DNA没有PCR扩增人造序列(artifacts)(图2)。条形码序列被设计为与人、小鼠和酵母基因组明显不同，以使得从基因组DNA序列去卷积内标梯状物足以经得住配对末端测序中四个以上的碱基识别(base-calling)错误。候选条形码成对地添加至601-核两侧，并进一步挑选以高且相当的扩增效率形成清楚的单条带PCR产物的候选条形码(图3A)。由于ICeChIP分析读数需要PCR，所以无论是制备测序用库还是直接进行测量(qPCR或ddPCR)，都检查了梯状DNA是否显示出相对于基因组DNA的任何扩增偏倚(bias)并发现没有可检测到的差异(图3B)。用一系列浓度(a concentration series)的不同带条形码的DNA下通过组蛋白八聚体的梯状物透析在一个管中制备ICeChIP核小体梯状物(Luger et al.,1999；Ruthenburg et al.,2011)(图2)。

在免疫沉淀或拉下试验之前，将带有H3K4me3标记的核小体内标掺入至经消化的基因组染色质中来实施ICeChIP-seq。在此，示出了E14小鼠胚胎干细胞的ICeChIP-seq数据(图4)。发现对天然ChIP的Dilworth实验方案(Brand et al.,2008)的微小改善使染色质回收率最大化(>80％，用qPCR)，提供至少95％的纯核小体，从而使常染色质偏倚最小化。然后将内标梯状物掺入天然常染色体群，并使其经受羟磷灰石色谱纯化然后经受免疫沉淀或拉下试验。量化细胞核的数量然后进行微球菌酶(MNase)消化以围绕所示的基因组拷贝呈现核小体梯状物范围，使得梯状物浓度范围代表给定的天然核小体。在添加的梯状物的量极小的情况下(通常为输入中总核小体的0.0001-0.002％)，不明显减小测序深度也不扰乱天然核小体捕获。使经免疫沉淀的材料和掺入-输入都经受Illumina测序；通过比对内标DNA序列连接的合适的基因组组装物(assembly)来去卷积梯状物和天然核小体的读序(read)。

与其中峰高没有直接生物学意义的常规ChIP相反，ICeChIP能够计算组蛋白修饰密度(HMD％)：给定染色质间隔上存在的标记表位的实际百分比，bp分辨率适于ChIP-seq。在抗体良好的情况下，HMD％通常范围为0-100％，但并不限于该范围(图4)。在ICeChIP-seq中，IP和输入中内标读序的比例是IP富集的直接量度，是适于基因组范围上每碱基对对齐的天然IP读序/输入读序的比例的值(图1)。

作为有代表性的H3K4me3富集区域，示出了小鼠细胞中的HOXA/Hoxa基因簇(Bernstein et al.,2006；Guenther et al.,2007；Mikkelsen et al.,2007)(图4)。在该测序深度下，明显富集的峰的HMD的范围为低至1％到大于100％。误差估计值在高占有率核小体(high-occupancy nucleosomes)的二分体(dyad)附近渐进式快速上升(spikeasymptotically)。由于这些区域的读序的数量很低，bp间隔上小数量的统计是实验误差的主要来源。更大的输入测序深度使误差幅度减小，这可通过比较约4倍深的测序来辨别(误差∝1/√深度)。或者在较大的染色质间隔内以降低的不确定性表示HMD。重要的是，这些数据在生理上似乎可信的范围之内-在实验误差内表观修饰密度很少超过100％。尤其是，mESC H3K4me3数据集的60,530个识别峰(MACS2，p<10-20)中有18300个的HMD/bp值在峰内的任一点都超过100％，仅1627个的HMD/bp值的95％置信区间的下限大于100％。然而，更谨慎地评估了该方法在测量组蛋白修饰密度方面的有效性。

在图4中在实施ICeChIP-seq测量的过程中，内标的行为提供了对精确度的直接评价。对于针对H3K4me3的HEK293ICeChIP，IP中所观察到的每个梯状物成员相对于输入的相对丰度的线性回归揭示了斜率为1.02±0.02、R²为0.998的明显相关性(图5A)。另外的单独实验揭示了表明精确度非常高且没有明显的系统偏差的类似的明显的线性关系，表明每个梯状物成员展现出了等效的IP富集(图9B-D)。这些实验首次次证实表位的量与对应的ChIP信号强度之间存在线性关系。这种线性关系是在ICeChIP中使用标度因子(scalar factor)的必要条件，因此在应用ICeChIP衡量(scaling)前，通常检查严格的线性关系。在实验中，该线性关系通过有用的工作范围存在，因为已经以与该实验中细胞核数量的大致相同范围呈现出核小体内标的浓度系列(concentration series)。本发明人寻求将由Illumina测序与其他定量DNA计数方法计算出的HMD/bp进行比较的方法。数字微滴PCR(ddPCR)和定量PCR(qPCR)依赖于由特定引物组限定的扩增子，因此可直接比较该扩增子染色体间隔上平均的源自ICeChIP-seq的HMD/bp。令人惊讶的是，发现用配对末端测序时，本发明人的IP中DNA片段相对于输入的富集是单核小体的5.7倍，导致表观HMD增加约16％。本发明人将该比例过高(overrepresentation)称为“寡核小体抗体亲抗原性偏倚”，并认为该“寡核小体抗体亲抗原性偏倚”是由于每DNA片段表位的效价(valence)较高造成的。作为一种修正，本发明人通常筛选原始的配对末端测序数据以除去较大的DAN片段。然而，用qPCR和ddPCR进行的测量在没有严格的尺寸筛选的情况下不能区分单核小体衍生的信号和寡核小体衍生的信号。因此，为了进行比较，本发明人示出了未校准的HMD信号(图5B)，并在补充信息中提供单核小体-校准的HMD。用该分析时，在mESC的HoxA5基因座上，所述三种测量方法在实验误差范围之内是相同的(图5B)。而且，本发明人用组蛋白H3和组蛋白H4抗体实施了ICeChIP并发现所预期的核小体的约2:2的比例，该比例对于所有三种测量形式都是不可区分的。这种一致性表明要么ICeChIP是精确的要么其有不依赖于DNA定量方法的系统误差。

半合成组蛋白制备

人组蛋白H3.2(C110A)K4me3通过半合成制备(Ruthenburg et al.,2011；Shogren-Knaak and Peterson,2003)，但是在一个关键方面有所不同脱硫步骤之后，连接结合处是无疤的(Wan and Danishefsky,2007)—所得的组蛋白与留着用于C110A突变的天然修饰组蛋白相同，在重组组蛋白中经常进行该C110A突变以便于操作。通过Boc-chemistry SPPS在S-三苯甲基-β-巯基丙酰基-对甲基-二苯甲胺(S-trityl-β-mercaptopronionyl-p-methyl-benzhydrylamine)树脂(Nova Biochem)上以肽硫酯合成对应组蛋白3的残基1-20且带有K4me3修饰的序列(Alewood et al.,1997)。将树脂用DMF溶胀1小时，然后用95％TFA、2.5％三异丙基硅烷和2.5％H₂O洗涤3次、3分钟进行以脱保护。在氮气搅拌下，用与树脂孵育10分钟的4摩尔当量的Boc-保护的氨基酸、3.9摩尔当量的HBTU和6摩尔当量的DIPEA进行所有氨基酸偶联。偶联后，将树脂用DMF洗涤3次(除了对谷氨酰胺使用DCM以外)，用TFA洗涤3次实现Boc脱保护，其中第一次洗涤为流动洗涤(flow wash)。在最后一次氨基酸脱保护之后，将树脂依次用DMF、DCM和甲醇洗涤。将所有的肽用HF/DMS/苯甲醚(10:1:1)切离树脂，用冷的二乙基醚沉淀并冻干。

重组表达截短的组蛋白H3.2Δ20(C110A)与N末端的His₆-标签以及插入在H3.2L20位置后替换A21的TEV蛋白酶切割位点(ENLYFQ^C)，使得一经TEV蛋白酶切割，就释放N-末端半胱氨酸。使用MPAA连接辅助物(Johnson and Kent,2006)将如上所述的C-末端肽硫酯通过天然化学连接(Dawson et al.,1994)连接至重组组蛋白H3.2Δ20-A21C片段。简言之，将等摩尔量的肽基3-巯基丙酰胺硫酯(peptidyl3-mercaptopropionamidethioester)和截短的组蛋白以2mM的终浓度在30mM MPAA和20mMTCEP的存在下混合于NCL缓冲液(6M盐酸胍，200mM磷酸盐pH 7.0)。如果需要，将pH调整至7.0，反应在室温下孵育12-16小时。随后用MALDI MS确认反应完成，并通过半制备型HPLC纯化产物(柱YMC pack C8，250mm*10mm，5μm,30nm)。通过自由基介导的半胱氨酸脱硫作用恢复21位上的天然丙氨酸(Wan and Danishefsky,2007)。用ESI MS确认反应完成，用半制备型HPLC(柱YMC pack C8，250mm*10mm，5μm,30nm)进行纯化并随后冻干。

使用大肠杆菌(E.coli)中表达的人组蛋白(Ruthenburg et al.,2011)，如先前所述以250-500μg的规模制备八聚体(Luger et al.,1999；Muthurajan et al.,2003)。简言之，将等摩尔的核心组蛋白混合于去折叠缓冲液中(50mMTris-HCl pH 8，6.3M HCl胍,10mM2-巯基乙醇，4mM EDTA)至总组蛋白的终浓度为≥1mg/mL，并在4℃下在3500MWCOSnakeSkin透析管(Pierce)中用500体积的去折叠缓冲液(20mMTris-HCl pH 7.8，2M NaCl，1mM EDTA，5mM DTT)透析，在16小时内换液两次。在透析和离心以除去任何沉淀的物质之后，使粗品八聚体溶于去折叠缓冲液的可溶部分(fraction)经受凝胶过滤层析(Superdex200 10/300GL,GE Healthcare)。将含有纯八聚体的部分(fractions)合并并用AmiconUltra-4离心式过滤器(10k MWCO,Millipore)浓缩至终浓度为5-15μM(光谱测量，ε_280nm＝44700M^-1cm^-1，流过浓缩器使其空白)。

用于核小体重构的DNA基于“601-Widom”核小体定位序列(Lowary and Widom,1998)。本发明人将侧翼为不变的6bp接头DNA的22bp条形码序列添加到601序列的每一末端，每个条形码序列由两条连接在一起的在人基因组和动物基因组中不存在的11bp序列组成(Herold et al.,2008)。

通过混合等摩尔的组蛋白八聚体和DNA至终浓度为1μM，然后在透析按钮装置(dialysis buttons)(Hampton Research)中，在12-16小时内，在含20mMTris-HCl pH 7.5、1mM EDTA、10mM 2-巯基乙醇(2mercaptoetanol)的缓冲液中，用以2M NaCl开始以200mMNaCl结束的非线性梯度透析该溶液来重构核小体(Ruthenburg et al.,2011)。透析后，将半合成核小体用2×储存缓冲液(20mM二甲次胂酸钠pH 7.5，10％v/v甘油，1mM EDTA)、1×RL蛋白酶抑制剂混合物(Cocktail)[1mM PMSF，1mM ABESF，0.8M抑肽酶，20M亮抑肽酶，15M抑肽素A，40M抑氨肽酶，15M E-64]、200μM PMSF进行1:1稀释，并保存在4℃下。通过用2MNaCl脱去DNA并通过溴化乙锭染色的琼脂糖凝胶的密度测定法(用Thermo ScientificMassRuler Low Range DNA Ladder原位校准)测量DNA的浓度，一式三份，来测量核小体的浓度。半合成核小体的工作浓度通过在长期储存液(10mM二甲次胂酸钠pH 7.5，100mMNaCl，50％甘油，1mM EDTA,1×RL蛋白酶抑制剂混合物，200μM PMSF)中稀释至所期望的浓度来得到并保存在-20℃下。

ICeChIP

ICeChIP实验方案是类似天然ChIP实验方案的拉下实验方案(Brand et al.,2008)。将贴板(plate-adhered)细胞(每IP约10⁷个细胞)用10mL的PBS洗涤两次，用5mLAccutase(Millipore)在37℃下释放5分钟，用2mL的完全培养基淬灭，并通过离心(500×g，4℃下5分钟)收集。所有的后续步骤用冰冷的缓冲液在冰上进行。将细胞用10mL PBS洗涤两次，用5mL缓冲液N(15mMTris pH 7.5，15mMNaCl，60mMKCl，8.5％(w/v)蔗糖，5mM MgCl₂，1mMCaCl₂ 1mM DTT，200μM PMSF，1×RL蛋白酶抑制剂混合物)洗涤两次。将细胞重悬于2PCV(细胞压缩体积)的缓冲液N中，并通过加入2PCV的2×裂解缓冲液(补充有0.6％NP-40替代物(Sigma)的缓冲液N)在4℃下裂解10分钟。细胞核通过离心(500×g，4℃下5分钟)收集并重悬于6PCV的缓冲液N中。为了除去细胞碎片，将重悬的细胞核铺在50mL离心管中的7.5mL蔗糖垫(10mM HEPES pH 7.9，30％(w/v)蔗糖，1.5mM MgCl₂)的表面上并离心(1300×g，Sorvall Legend XTR浮筒式转头，4℃下12分钟)。大部分细胞碎片留在上层中，而细胞核沉淀通过蔗糖垫，并在管的底部形成小球状(pelleted)沉淀。弃去上清，将细胞核重悬于2PCV的缓冲液N中。为了测量染色质的表观浓度，将2μL的重悬细胞核一式三份在98μL的2M NaCl中稀释，用Nanodrop(Thermo Scientific)在260nm处测量总核酸吸光值，换算系数假设为每μL所用的染色质1A₂₆₀＝50ng。基于这些测量结果，将染色质的表观浓度用缓冲液N调整为1μg/μL。还使用血细胞计数器评价细胞核的量和质量。

在该阶段中，将半合成核小体的梯状物掺杂至天然核小体的池中，掺入的梯状物的量相当于基于细胞核计数乘以每细胞平均DNA含量(每个细胞约2.5拷贝基因组)所估计的所述池中基因组拷贝的量。

为了除去来自细胞核裂解和微球菌酶消化的碎片以及脱去染色质结合因子(chromatin bound factors)，使核小体的池经受羟基磷灰石色谱纯化(Brand et al.,2008)。将用内标梯状物片段化的染色质分成100μg总核酸的部分，将每部分与用200μL的HAP缓冲液1(3.42mM Na₂HPO₄和1.58mM NaH₂PO₄最终pH 7.2，600mMNaCl，1mM EDTA，200μMPMSF)再水化的66mg羟基磷灰石(HAP)树脂混合(Bio-Rad CeramicHydroxyapatite Type I 20μm)，在旋转器上在4℃下孵育10分钟，然后用于离心过滤单元(centrifugal filter unit)(Millipore MC–HV Centrifugal Filter 0.45μm)。使柱中负载(loaded)染色质的树脂流干(drained)然后通过以固定角转子离心(600×g,4℃下1分钟)用200μL HAP缓冲液1洗涤4次，用200μL HAP缓冲液2(3.42mM Na₂HPO₄和1.58mM NaH₂PO₄最终pH 7.2，100mMNaCl，1mM EDTA，200μM PMSF)洗涤4次。用100μL HAP洗脱缓冲液(342mM Na₂HPO₄和158mM NaH₂PO₄最终pH 7.2，100mMNaCl，1mM EDTA，200μM PMSF)洗涤3次将核小体从HAP柱上洗脱下来。为了测量HAP纯化的染色质片段的表观浓度，将10μL的HAP洗脱液一式三份稀释于40μL的2M NaCl中，对260nm处测量的吸光值求平均值并进行调整(1A₂₆₀＝50ng/μL染色质)。将染色质的表观浓度用ChIP缓冲液1(25mMTris pH 7.5，5mMMgCl₂，100mMKCl，10％(v/v)甘油，0.1％(v/v)NP-40替代物)调整为20μg/mL。

用10μg的染色质和15μL的AM39159抗体进行H3K4me3ChIP，分别用1μg的染色质和15μL的AM61277抗体和AM61299抗体进行H3和H4ChIP(活性基序)。留出初始染色质的10％作为ChIP输入。每个IP实验使用50μL的Protein ADynabeads(Invitrogen)，该ProteinADynabeads用1mL的ChIP缓冲液1洗涤1分钟，洗涤两次，每次洗涤后在磁道上收集1分钟。为了制备该树脂，将15μL的抗体和85μL的ChIP缓冲液1添加至Protein ADynabeads，并在旋转器上在室温下孵育10分钟，然后用1mL的ChIP缓冲液1洗涤两次。然后将500μL ChIP缓冲液1中的染色质(10μg，除非另有说明)添加至磁性珠并在旋转器上在室温下孵育15分钟。将珠用1mL的ChIP缓冲液2(mMTris pH 7.5，5mM MgCl₂，300mMKCl，10％(v/v)甘油，0.1％(v/v)NP-40替换物)洗涤3次，然后用ChIP缓冲液3(10mMTris pH 7.5，250mM LiCl，1mM EDTA，0.5％脱氧胆酸钠，0.5％(v/v)NP-40替换物)洗涤2次，每次洗涤由在4℃下旋转孵育10分钟和在磁道上收集1分钟组成。在洗涤的过程中，至少两次换管减少了非特异性背景。然后将珠用1mL的ChIP缓冲液1和1mL的TE缓冲液冲洗，然后是两个200μL ChIP洗脱缓冲步骤(50mMTris pH 7.5，1mM EDTA，1％w/v SDS)。每个洗脱步骤由在Thermoshaker(Eppendorf)中在65℃、900rpm下孵育10分钟组成。将洗脱液合并，将ChIP洗脱缓冲液加至输入以与ChIP缓冲液的体积匹配。将缓冲液调整为200mM NaCl之后，将100ng的RNase A加至所述混合物中并在Thermoshaker中在800rpm、65℃下孵育45分钟，用10mM EDTA终止孵育。接着在Thermoshaker中在800rpm、42℃下用20ug蛋白酶K(Roche)消化2小时完成蛋白消化。回收DNA并用Qiaquick柱(Qiagen)进行纯化：将6体积的PB缓冲液加至消化液中并将溶液应用于柱(17900×g，30s)，然后进行3次750μL PE缓冲液洗涤(17900×g，30s)，再离心1分钟以除去残留乙醇。通过在50℃下使用25μL的TE缓冲液两次并离心(17900×g，1分钟)来洗脱DNA。

Illumina库制备

库制备使用分离自IP或输入的10ng DNA。在DAN总量低于10ng的情况下，将所有可获得的DNA用于库制备。使用End-itTMDNA End-Repair试剂盒(Epicentre)(7μL 10×End-It缓冲液，7μL 2.5mM dNTP Mix，7μL 10mM ATP，1.4μL的End-Repair Enzyme Mix和47.6μLTE缓冲液中的DNA在室温下孵育45分钟钝化DNA的末端。用126μL(1.8体积)的Ampure XP珠(Ampure XP Bead,Beckman Coulter)纯化DNA。将珠与末端修复混合物(End repairmixture)通过上下吸打10次混合，然后在室温下孵育5分钟。利用磁铁在管的侧面收集磁性珠，并在磁铁上用250μL 80％EtOH洗涤30秒钟，洗涤2次。将管从磁道取下，向珠加入34μL的TE缓冲液并上下吸打10次。磁性珠不从洗脱液中取出而是在加尾(A-tailing)期间留在管中。向DNA的3’末端添加单个腺苷酸通过将5μL NEB缓冲液2、10μL 1mMdATP、1μL Klenow片段(3’→5’外切酶(exo-)，NEB)加至经末端修复的DNA并在37℃下孵育30分钟来完成。为了纯化DNA，将110μL(2.2体积)的SPRI缓冲液(20％PEG6000，2.5M NaCl)加至反应中，上下吸打10次，然后在室温下孵育5分钟。用磁铁在管的侧面收集磁性珠，并在磁铁上用200μL80％EtOH洗涤30秒钟，洗涤2次。将管从磁道取下，向珠加入13μL的TE缓冲液并用微量移液器混合。磁性珠不从洗脱液中取出而是在衔接子(adaptor)连接期间留在管中。为了连接衔接子，制备以下混合物：2×Quick DNA连接酶缓冲液，2μL的2μM衔接子双链体，1μL的QuickDNA连接酶(NEB)，并将混合物加至13μL的加尾(A-tailed)DNA。在室温下孵育反应15分钟。为了纯化DNA，将21μL(0.7体积)的SPRI缓冲液加至反应，上下吸打10次，然后在室温下孵育5分钟。磁性珠利用磁铁收集，并用孵育30秒的200μL 80％EtOH＝洗涤两次，用46μL的TE缓冲液洗脱。将上清液转移至新的硅化管中。

运行定量-PCR以估计扩增DNA库的最小PCR循环数。7.15μL的H₂O，1μL的10×AccuPrime PCR缓冲液II，0.25μL的染料(Biotum)至最终0.5×稀释液，1μL的DNA库，0.2μL的25μM MP_PCR_引物1，0.2μL的25μM MP_PCR_引物2，和0.2μLAccuPrimeTaq DNA聚合酶(Invitrogen#12339-016)。将Bio-Rad CFX384qPCR机器程序设置为：1-95℃持续5min(分钟)，2-95℃持续80s(秒)，3-65℃持续90s–结束时读取数据，4-回到步骤2，共24次。基于读数，扩增库的循环数设置为C_t+3个循环。如果所观察到的C_t值小于7个循环，那么将模板稀释10倍并重复过程。

通过混合以下：40μL DNA库，5μL 10×AccuPrime PCR缓冲液II，1μL 25μM MP_PCR_引物1，1μL 25μM MP_PCR_引物2_INDEX，1μL AccuPrimeTaq DNA聚合酶和2μL的H₂O，然后在C1000(Bio-Rad)中进行热循环来扩增tDNA库。将机器设置为：1-95℃持续5min，2-95℃持续80s，3-65℃持续90s，4-回到步骤2；用qPCR确定循环数(C_t+3个循环)。扩增的DNA用90μL(1.8体积)的AgencourtAmpure XP珠纯化。通过上下吸打10次将珠与PCR混合物混合，然后在室温下孵育5分钟。利用磁铁在管的侧面收集磁性珠，并在磁铁上用250μL 80％EtOH洗涤30秒钟，洗涤2次。将管从磁道取下，向珠加入25μL的TE缓冲液并上下吸打10次。在管的侧面收集磁性珠并将上清液移至新的硅化管中。用Agilent Technologies 2100Bioanalyzer评价扩增库的尺寸分布和浓度。

测序和数据分析

由芝加哥大学功能基因组核心实验室(University of Chicago FunctionalGenomics core facility)使用Illumina HiSeq 2500的标准Illumina实验方案进行簇生成和测序。数据分析用Galaxy进行(Blankenberg et al.,2010；Giardine et al.,2005；Goecks et al.,2010)。首先将FastQ格式的原始读序(reads)提交至FastQ Groomer。根据有机体来源用Bowtie2(Langmead et al.,2009)(敏感预设选项，末端到末端比对)将读序定位至末端连接有条形码序列(每个条形码有其自己的条目(entry))的小鼠(MM10)参考基因组。然后使用SAMtools(Li et al.,2009)筛选所得的SAM文件。通过该数据分析管道将未定位的(unmapped)、未配对的(距离>1000bp)以及错误配对的读序从该集合中除去。为了除去来自低质量读序的噪音和污染物以及模糊(mask)可重复的基因组序列，除去定位质量(mapping quality)低于20的读序。为了避免信号人造物(signal artifacts)以及不使泊松抽样(Poisson sampling)统计失真，将配对的读序合并在一起成为单个条目(将重叠的片段展开并填补缺口)。除非另有说明，为了避免寡核小体抗体亲抗原性偏倚，除去长于220bp的读序。使用BEDTools(Quinlan和Hall,2010)生成基因组覆盖图(bedgraph)。

为了获得高精确度，本发明人旨在实现1000至10个读序的深度以及至少约20的输入的平均深度的IP覆盖范围。然而，输入测序越深越好，因为其是精确度的限制因素。为了计算条形码IP效率，本发明人计算了IP中每个条形码整条序列上的综合覆盖度(integrated coverage)与输入的比例。

其中，n是条形码构建体的长度，在这个列子中，其为203bp，IP为IP中的累计计数(integrated counts)，输入为输入的累计计数。

为了提高精确度，本发明人对多个条形码的条形码IP效率值求平均值。为了计算组蛋白修饰密度(HMD)，本发明人将以下等式用于IP和输入的基因组覆盖度信息：

为了估算HMD的95％置信区间，本发明人应用如下等式：

在此，本发明人假设效率的标准方差可忽略不计，IP和输入中读序的抽样符合泊松抽样统计。为了计算基因组范围的总HMD含量(所有基因组基因座中带修饰的所有核小体的百分比)，整合(integrate)HMD信号并随后除以获得其基因组覆盖度的碱基对的数目或者除以所报道的总基因组大小。

实施例2：验证ICeChIP-seq：可再现性和稳健性(robustness)

为了检验复制时ICeChIP的一致性，本发明人重复了mESC中的H3K4me3ICeChIP-seq，并观察HMD轨迹(track)的紧密结合(coupling)。相应地，所识别的峰上每个生物复制品的平均HMD值是高度关联的(R²＝0.95)，并且分布落在所估计的误差之内(图6A)。

由不同实验处理条件造成的IP富集度的变化是常规ChIP中主要的复杂化因素(Marinov et al.,2014)。通过将每个实验的输出值与所定义的内标联系在一起(tethering)，用ICeChIP测量的HMD对实验变化更包容。由于表观IP富集度是输入染色质的量相对于树脂上表位结合位点数量的函数，所以本发明人旨在通过控制输入相对于树脂固定的抗体的比例来模拟实验处理差异。在一个线性分段(linear staging)方案中，本发明人通过ICeChIP-qPCR检查H3K4me3HMD并发现其不依赖于输入的量，可追踪到GAPDH基因座上H3K4me3的相对均匀的IP富集。虽然这些实验确认了HMD在通常的ChIP输入范围内是一致的，但是本发明人寻求能产生差别化富集的实验条件。对于固定量的输入，改变免疫沉淀中使用的树脂固定抗体的量获得高于6倍的IP效率，而根据这些实验计算出的Dnmt3A基因座和Hoxa9基因座的H3K4me3密度在实验误差内是相同的(图6B)。类似地，ICeChIP-seq期间结合条件和洗涤条件的剧烈改变提供非常类似的HMD测量值(图7A)。最后，本发明人用滴定法测量输入量以检查接近低细胞数实验方案的极限时ICeChIP的表现，并发现其在低至等同于约400个细胞的输入下表现稳定(图8)。总之，这些数据表明虽然IP富集度可能随实验条件变化，但是HMD是稳定的并且是高度可再现的。

实施例3：多梯状物ICeChIP(Multiple ladder ICeChIP)原位测量IP特异性

表观ChIP信号是相关表位的中靶捕获和脱靶捕获(例如其他赖氨酸甲基标记物)以及核小体与抗体树脂的非特异性粘附的混合物。用若干种不同类型的内标实施的ICeChIP测量所有这三种可能的ChIP信号来源，从而首次精确地找到真信号以及ChIP的误差。本发明人通过ICeChIP-qPCR检查了掺有以下三种类型内标的mESC核小体：在可辨别DNA物质上重构的H3K4me3修饰的、H3K36me3修饰的和未修饰的核小体(每种类型，两种核小体)。之所以选择H3K36me3，是由于其带有嵌入在不同序列背景(sequence context)中的三甲基赖氨酸，并且先前已经在肽阵列上发现了该抗体对H3K36me3的适度的脱靶亲和力(Bock et al.,2011)。通过检查内标物，本发明人观察到了几乎不能检测到的超过未修饰核小体背景(1.9±0.2)的H3K36me3富集(2.8±0.4)。与强的(robust)靶信号(81±10)相比，在该实验中有30倍的表观特异性。因此，该抗体与带H3K36me3核小体的脱靶结合对表观H3K4me3密度的贡献是可忽略不计的。

为了建立更综合的内标组，本发明人构建了含有组蛋白H3中研究的最透彻的二甲基赖氨酸和三甲基赖氨酸(Chen et al.,2014)的许多修饰组蛋白，并设计了更大组的带条形码DNA模板。特别是，本发明人设计了第二代潜在DNA模板(n＝100)，该第二代潜在DNA模板相对于第一代具有被推定有微球菌酶抗性这一另外特征。本发明人在两个并行的ICeChIP实验中测试了所有这些模板，当重构到携带H3K4me3的核小体中时，在用微球菌酶消化mESC细胞核之前或之后将它们掺入。将通过该严格测试(基本上立即组合先前确认的所有元素)的72个独特的带条形码的模板分成9组，每组8个成员。对于未修饰的核小体、H3K4me3核小体、H3K9me3核小体、H3K27me3核小体、H3K36me3核小体和H3K79me2核小体，本发明人重构了六种离散的(discrete)梯状物，并将等量(an equivalent of)的每种梯状物掺入至单个mESC细胞核池中。使该合并的混合物经受微球菌核酸酶消化，接着同前一样经受羟基磷石灰纯化，然后用对于这些标记中的每一种可获得的最佳验证的抗体探测(probe)大部分为单核小体的池。

对每个ICeChIP的测序通过比较靶上内标捕获与脱靶内标捕获来提供对抗体特异性的原位(in situ)评价(图9A)。令人满意的是，当用这些其他核小体内标挑战时(H3K9me3相当于3％的靶上捕获)，H3K4me3抗体被证明是高度特异性的。H3K9me3抗体和H3K27me3抗体的特异性略低，存在所预期的因两种标记都位于“ARKS”基序内而导致的交互识别(分别代表10％和26％的靶上信号)。令人惊讶的是，最广泛使用的H3K36me3抗体和H3K79me2抗体在该实验中是混杂的(最好时约2-3倍特异性，尽管通过若干独立的ENCODE验证)。对这两种标记而言，适度的选择性显然是尤其成问题的，因为它们远不如它们的抗体同样识别的脱靶核小体标记中的大多数标记那般丰富。尤其是，来自同一细胞系的质谱测量结果报告H3K36me3和H3K79me2占所有H3的2.5％和0.5％，而H3K9me3和H3K27me3则多一个数量级(Voigt et al.,2012)。因此，适度倍数的特异性将在相反方向抵消富集倍数差异。

对于5种不同的抗体，脱靶捕获与核小体表位的量成线性关系(图9B-D)。虽然抗体特异性可有所不同，但是给定抗体的背景是确定的，并且其与输入中存在的脱靶物质的量成比例。因此，当内标有线性关系且背景结合是适度且可测量的时候，本发明人应用该内标作为标量(scalar)的方法是有效的。给定标记的具体HMD信号可通过求解一组线性方程来修正。尽管在先前报道的富集H3K36me3和H3K79me2标记的位点上H3K36me3和H3K79me2的表观HMD值较高，但是在本发明人的实验中HMD以及用这些抗体的天然ChIP测量值代表噪音多于信号(图9A)。相反，H3K4me3、H3K9me3和H3K27me3的HMD值显示出了最小限度的增加以及可修正的脱靶结合，使得可以在基因组范围上定量比较这三种标记的量。

在精确测量获自二倍体细胞H3K4me3、H3K9me3和H3K27me3ICeChIP-seq的实际组蛋白量的情况下，当两种标记的HMD的总和超过100％时，本发明人对标记的核小体共占有率(nucleosomal co-occupancy)作了统计学论证。该解释适用于核小体内的两种不同标记以及分别称为不对称修饰核小体和对称修饰核小体的一个拷贝的给定标记和两个拷贝的给定标记(Voigt et al.,2012)。mESC中所有基因TSS处H3K4me3HMD以从最高到最低的顺序排列绘制H3K4me3和H3K27me3修饰密度的热图，示出了具有这两种修饰的不同模式的若干大类基因。令人惊讶的是，在高度表达的基因上，H3K27me3的水平略降，代谢基因/管家基因就是例子，然而该标记的最高HMD存在于早期发育基因的子集(subset)上。确实，mESC中沉默的类别中的其他受抑制的晚期发育基因例如神经学和免疫系统过程(58％和62％H3K27me3)中H3K27me3富集明显少于(分别为p<10 56,10 19)受抑制的细胞分化基因(70％H3K27me3)。果蝇(Drosophila)S2细胞中的发育基因也具有最高的H3K27me3平均HMD。

H3K4me3标记通过若干已知的机制促进转录起始(Guenther et al.,2007；Lauberth et al.,2013；Ruthenburg et al.,2007a；Santos-Rosa et al.,2002；Schubeler,2004)。先天地，HMD可能被构建为不能为检验与基因表达的关联提供信息，因为当与基因表达相关时相对ChIP-seq峰高等于HMD。然而，当以生物学上有意义的标度检查H3K4me3时，分组mRNA丰度(binned mRNA abundance)揭示了令人感兴趣的对相应TSS处平均表观HMD的S形依赖。假定精确测量H3K4me3密度，那么该曲线的拐点(约50％HMD)大致位于通常两个等位基因上不对称修饰核小体与对称修饰核小体之间的统计边界处。较低的HMD群是否仅仅表示已被暗示可减少转录变化的在TSS之外H3K4me 3更广泛的空间分布(Benayoun et al.,2014)？仔细的检查表明情况恰好相反，即在小鼠细胞和人细胞中平均峰HMD值与峰跨距(peak span)呈正相关；此外，该分布是双峰的,且较大的修饰域(modification domain)具有与对称修饰相符的较高的平均HMD值。

实施例4：ICe-ChIP作为诊断工具

设想本文描述的ICe-ChIP材料和方法用于旨在检测哺乳动物样品内特定遗传基因座上组蛋白PTM水平的试验。本发明的材料和方法可用于与组蛋白翻译后修饰的变化相关的任何疾病的诊断、预后、分类、疾病风险预测、复发检测、疗法选择以及疗法疗效的评价，所述任何疾病包括癌症。

例如H3K79me2，驱动两个关键基因HOXA9和MEIS1的表达，其是导致大部分由不同的遗传突变引起的急性髓细胞性白血病的常用检验点(checkpoint)(Bernt et al.,2011；Kroon et al.,1998)。本发明可用于测量患者血液样品中这些基因座上的H3K79me2HMD，以确定患者的细胞是否通过该检验点以及是否可诊断为急性髓细胞性白血病。将患者血液样品中这些基因座上的H3K79me2HMD与正常样品中这些基因座处的H3K79me2HMD进行比较，相对于对照患者样品，HMD增加表明高的急性髓细胞性白血病风险。

在另一个实施方案中，抗癌疗法可通过随时间监测接受疾病疗法的哺乳动物中本文描述的组蛋白翻译后修饰来评价。例如，施用H3K79me2-甲基转移酶抑制剂例如DOT1L抑制剂(Diagle et al.,2011)以治疗急性髓细胞性白血病之前，可使用ICe-ChIP测定HOXA9和MEIS1基因座处H3K79me2的翻译后修饰状态。然后，通过如上所述将H3K79me2HMD与预处理样品、对照样品或预确立的阈值进行比较来测定抑制剂的有效性。由于ICe-ChIP标准化了多个样品间的分析，处理前样品与处理后样品或健康样品和非健康样品之间的比较给出了生物学上相关的信息，因此有利于评价患者中治疗剂的疗效的诊断法，包括药物开发期间。

而且，本发明的方法和材料可用于检测特定药物是否对组蛋白无作用，从而指示药物对于改变感兴趣的组蛋白翻译后修饰的特异性。

人组蛋白H2A型1/2/3的翻译后修饰：

人组蛋白H2A.X的翻译后修饰：

人组蛋白H2A.Z的翻译后修饰：

人组蛋白H2A.V同种型1/2/3/4/5的翻译后修饰：

表1(a)-人组蛋白H2A型1/2/3、人组蛋白H2A.X、人组蛋白H2A.Z和人组蛋白H2A.V同种型1/2/3/4/5的翻译后修饰

人组蛋白H2A.J的翻译后修饰:：

人组蛋白H2B型1的翻译后修饰：

表1(b)-人组蛋白H2A.J和人组蛋白H2B型1的翻译后修饰人组蛋白H2B型2/3/F-S的翻译后修饰:

表1(c)-人组蛋白H2B型2/3/F-S的翻译后修饰

推定的(putative)人组蛋白H2B型2-D/2-C翻译后修饰：

表1(d)–推定的人组蛋白H2B型2-D/2-C的翻译后修饰

人组蛋白H3.1/H3.1t/H3.2/H3.3/H3.3C的翻译后修饰：

表1(e)-人组蛋白H3.1/H3.1t/H3.2/H3.3/H3.3C的翻译后修饰人组蛋白H3样着丝粒蛋白A的翻译后修饰：

人组蛋白H4的翻译后修饰：

位置修饰类型说明

表1(f)-人组蛋白H3样着丝粒蛋白A和人组蛋白H4的翻译后修饰

表2-核苷酸序列-大写字母->退火片段；小写字母->条形码；粗体小写字母->核小体定位序列[601Widom和Lowary]

文献目录

1.Alewood,P.,Alewood,D.,Miranda,L.,Love,S.,Meutermans,W.,and Wilson,D.(1997).Rapid in situ neutralization protocols for Boc and Fmoc solid-phasechemistries(Boc和Fmoc固相化学反应的快速原位中和实验方案).Methods Enzymol(酶学方法).289,14–29.

2.Benayoun,B.A.,Pollina,E.A.,Ucar,D.,Mahmoudi,S.,Karra,K.,Wong,E.D.,Devarajan,K.,Daugherty,A.C.,Kundaje,A.B.,Mancini,E.,et al.(2014).H3K4me3Breadth Is Linked to Cell Identity and Transcriptional Consistency(H3K4me3广度与细胞身份和转录一致性有关).Cell(细胞)158,673–688.

3.Bernstein,B.E.,Meissner,A.,and Lander,E.S.(2007).The mammalianepigenome(哺乳动物表观基因组).Cell(细胞)128,669–681.

4.Bernt K.M.et al.(2011).MLL-rearranged leukemia is dependent onaberrant H3k79methylation by DOT1L(MLL重排白血病依赖于由DOT1L造成的H3k79甲基化).Cancer Cell(癌细胞)20,66-78.

5.Bin Liu,Yi,J.,SV,A.,Lan,X.,Ma,Y.,Huang,T.H.,Leone,G.,and Jin,V.X.(2013).QChIPat:a quantitative method to identify distinct binding patternsfor two biological ChIP-seq samples in different experimental conditions(QChIPat:鉴定不同实验条件下两种生物l ChIP-seq样品的不同结合模式的定量方法).BMC Genomics(BMC基因组学)14,S3.

6.Blankenberg,D.,Von Kuster,G.,Coraor,N.,Ananda,G.,Lazarus,R.,Mangan,M.,Nekrutenko,A.,and Taylor,J.(2010).Galaxy:a web-based genome analysis toolfor experimentalists(Galaxy：实验者可用的基于网络的基因组分析工具).Curr.Protoc.Mol.Biol.Ed.Frederick M Ausubel Al第19章,第19.10.1–21单元.

7.Bock,I.,Dhayalan,A.,Kudithipudi,S.,Brandt,O.,Rathert,P.,andJeltsch,A.(2011).Detailed specificity analysis of antibodies binding tomodified histone tails with peptide arrays(使用肽阵列的对结合修饰组蛋白尾的抗体的详尽特异性分析).Epigenetics Off.J.DNA methylation Soc.6,256–263.

8.Brand,M.,Rampalli,S.,Chaturvedi,C.-P.,and Dilworth,F.J.(2008).Analysis of epigenetic modifications of chromatin at specific gene loci bynative chromatin immunoprecipitation of nucleosomes isolated usinghydroxyapatite chromatography(通过对使用羟基磷灰石色谱分离的核小体进行天然染色质免疫沉淀分析特定基因座的表观遗传修饰).Nat.Protoc.3,398–409.

9.Chen,Z.,Grzybowski,A.T.,and Ruthenburg,A.J.(2014).Tracelesssemisynthesis of a set of histone 3species bearing specific lysine methylation marks(无痕半合成一组带有特定赖氨酸甲基化标记的组蛋白3物质).Chembiochem(化学生物化学)15,2071–2075.

10.Chi,P.,Allis,C.D.&Wang,G.G.Covalent histone modifications--miswritten,misinterpreted and mis-erased in human cancers(共价组蛋白修饰--在人癌症中被错写、曲解以及被错误抹去).Nat.Rev.Cancer 10,457–469(2010).

11.Daigle,S.R.et al.(2011).Selective killing of mixed lineageleukemia cells by a potent small-molecule DOT1L inhibitor(用有效的小分子DOT1L抑制剂选择性杀死混合谱系白血病细胞).Cancer Cell(癌细胞)20(1)53-65.

12.Dawson,M.A.,and Kouzarides,T.(2012).Cancer epigenetics:frommechanism to therapy(癌症表观遗传学：从机制到疗法).Cell(细胞)150,12–27.

13.Dawson,P.E.,Muir,T.W.,Clark-Lewis,I.,and Kent,S.B.(1994).Synthesisof proteins by native chemical ligation(通过天然化学连接合成蛋白质).Science(科学)266,776–779.

14.Feinberg,A.P.(2007).Phenotypic plasticity and the epigenetics ofhuman disease(人类疾病的表型可塑性和表观遗传学).Nature(自然)447,433–440.

15.Egelhofer,T.A.et al.An assessment of histone-modification antibodyquality(评价组蛋白修饰抗体特性).Nat StructMolBiol(自然：结构和分子生物学)18,91–93(2011).

16.Fuchs,S.M.,Krajewski,K.,Baker,R.W.,Miller,V.L.&Strahl,B.D.Influence of combinatorial histone modifications on antibody and effectorprotein recognition(组合的组蛋白修饰对抗体和效应蛋白识别的影响).CurrBiol(当代生物学)21,53–58(2011).

17.Giardine,B.,Riemer,C.,Hardison,R.C.,Burhans,R.,Elnitski,L.,Shah,P.,Zhang,Y.,Blankenberg,D.,Albert,I.,Taylor,J.,et al.(2005).Galaxy:a platformfor interactive large-scale genome analysis(Galaxy：交互式大规模基因组分析平台).Genome Res(基因组研究).15,1451–1455.

18.Goecks,J.,Nekrutenko,A.,Taylor,J.,and Galaxy Team(2010).Galaxy:acomprehensive approach for supporting accessible,reproducible,and transparentcomputational research in the life sciences(支持生命科学中可使用的、可再现的以及易懂的计算研究的综合方法).Genome Biol(基因组生物学).11,R86.

19.Guenther,M.G.,Levine,S.S.,Boyer,L.A.,Jaenisch,R.,and Young,R.A.(2007).A chromatin landmark and transcription initiation at most promoters inhuman cells(人细胞中大多数启动子上的染色质界标以及转录起始).Cell(细胞)130,77–88.

20.Hattori,T.,Taft,J.M.,Swist,K.M.,Luo,H.,Witt,H.,Slattery,M.,Koide,A.,Ruthenburg,A.J.,Krajewski,K.,Strahl,B.D.,et al.(2013).Recombinantantibodies to histone post-translational modifications(组蛋白翻译后修饰的重组抗体).Nat Methods(自然：方法)10,992–995.

21.Henikoff,S.(2008).Nucleosome destabilization in the epigeneticregulation of gene expression(基因表达表观遗传调控中的核小体去稳定化).Nat.Rev.Genet.(自然综述：遗传学)9,15–26.

22.Herold,J.,Kurtz,S.,and Giegerich,R.(2008).Efficient computation ofabsent words in genomic sequences(基因组序列中不存在的词组的有效计算).BMCBioinformatics(BMC生物信息学)9,167.

23.Jiang,C.,and Pugh,B.F.(2009).Nucleosome positioning and generegulation:advances through genomics(核小体定位和基因调控：基因组学上的进展).Nat.Rev.Genet.(自然综述：遗传学)10,161–172.

24.Johnson,E.C.B.,and Kent,S.B.H.(2006).Insights into the mechanismand catalysis of the native chemical ligation reaction(对天然化学连接反应的机制和催化的见解).J.Am.Chem.Soc.(美国化学会志)128,6640–6646.

25.Kroon E and Krosl J.(1998).Hoxa9transforms primary bone marrowcells through specific collaboration with Meis1a but not Pbx1b(Hoxa9通过与Meis1a而非Pbx1b的特定合作来转化初代骨髓细胞).EMBO17(13)3714-3725.

26.Landt,S.G.et al.ChIP-seq guidelines and practices of the ENCODEand modENCODE consortia(ENCODE和modENCODE联盟的ChIP-seq指南和实践).Genome Res(基因组学研究)22,1813–1831(2012).

27.Langmead,B.,Trapnell,C.,Pop,M.,and Salzberg,S.L.(2009).Ultrafastand memory-efficient alignment of short DNA sequences to the human genome.(短DNA序列与人基因组的超快且存储高效的比对)Genome Biol.(基因组生物学)10,R25.

28.Lauberth,S.M.,Nakayama,T.,Wu,X.,Ferris,A.L.,Tang,Z.,Hughes,S.H.,and Roeder,R.G.(2013).H3K4me3Interactions with TAF3Regulate PreinitiationComplex Assembly and Selective Gene Activation(H3K4me3与TAF3的相互作用调节前起始复合物组装和选择性基因激活).Cell(细胞)152,1021–1036.

29.Leroy,G.,Dimaggio,P.A.,Chan,E.Y.,Zee,B.M.,Blanco,M.A.,Bryant,B.,Flaniken,I.Z.,Liu,S.,Kang,Y.,Trojer,P.,et al.(2013).A quantitative atlas ofhistone modification signatures from human cancer cells(人癌细胞组蛋白修饰特征的定量图谱集).Epigenetics Chromatin(表观遗传学染色质)6,20.

30.Li,B.,and Carey,M.(2007).The Role of Chromatin duringTranscription(转录期间染色质的作用).Cell(细胞)128,707–719.

31.Li,H.,Handsaker,B.,Wysoker,A.,Fennell,T.,Ruan,J.,Homer,N.,Marth,G.,Abecasis,G.,Durbin,R.,and 1000Genome Project Data Processing Subgroup(2009).The Sequence Alignment/Map format and SAMtools(序列比对/图谱格式和SAM工具).Bioinforma.Oxf.Engl.25,2078–2079.

32.Liang,K.,and Keles,S.(2012).Normalization of ChIP-seq data withcontrol(用对照归一化ChIP-seq数据).BMC Bioinformatics(BMC生物信息学)13,199.

33.Lowary,P.T.,and Widom,J.(1998).New DNA sequence rules for highaffinity binding to histone octamer and sequence-directed nucleosomepositioning(与组蛋白八聚体高亲和力结合以及序列导向的核小体定位的新DNA序列法则).J.Mol.Biol(分子生物学杂志).276,19–42.

34.Luger,K.,Rechsteiner,T.J.,and Richmond,T.J.(1999).Preparation ofnucleosome core particle from recombinant histones(由重组组蛋白制备核小体核心颗粒).Methods Enzymol(酶学方法).304,3–19.

35.Marinov,G.K.,Kundaje,A.,Park,P.J.,and Wold,B.J.(2014).Large-scalequality analysis of published ChIP-seq data(大规模质量分析公开的ChIP-seq数据).G3(Bethesda)4,209–223.

36.Mikkelsen,T.S.,Ku,M.,Jaffe,D.B.,Issac,B.,Lieberman,E.,Giannoukos,G.,Alvarez,P.,Brockman,W.,Kim,T.-K.,Koche,R.P.,et al.(2007).Genome-wide mapsof chromatin state in pluripotent and lineage-committed cells(多能性细胞和谱系承诺细胞中染色质状态的基因组范围图谱).Nature(自然)448,553–560.

37.Muthurajan,U.M.,Park,Y.-J.,Edayathumangalam,R.S.,Suto,R.K.,Chakravarthy,S.,Dyer,P.N.,and Luger,K.(2003).Structure and dynamics ofnucleosomal DNA(核小体DNA的结构和动力学).Biopolymers(生物聚合物)68,547–556.

38.Nady,N.,Min,J.,Kareta,M.S.,Chédin,F.,and Arrowsmith,C.H.(2008).ASPOT on the chromatin landscape？Histone peptide arrays as a tool forepigenetic research(染色质景观上的SPOT？组蛋白肽阵列作为表观遗传学研究的工具).Trends Biochem.Sci.(生物化学趋势)33,305–313.

39.Nishikori,S.,Hattori,T.,Fuchs,S.M.,Yasui,N.,Wojcik,J.,Koide,A.,Strahl,B.D.,and Koide,S.(2012).Broad ranges of affinity and specificity ofanti-histone antibodies revealed by a quantitative peptideimmunoprecipitation assay(定量肽免疫沉淀试验揭示抗组蛋白抗体的广范围的亲和力和特异性).J MolBiol(分子生物学杂志)424,391–399.

40.Park,P.J.(2009).ChIP–seq:advantages and challenges of a maturingtechnology(成熟技术的优势和挑战).Nat.Rev.Genet.(自然综述：遗传学)10,669–680.

41.Quinlan,A.R.,and Hall,I.M.(2010).BEDTools:a flexible suite ofutilities for comparing genomic features(BEDTools：比较基因组特征的灵活的工具组).Bioinforma.Oxf.Engl.26,841–842.

42.Ruthenburg,A.J.,Li,H.,Milne,T.A.,Dewell,S.,McGinty,R.K.,Yuen,M.,Ueberheide,B.,Dou,Y.,Muir,T.W.,Patel,D.J.,et al.(2011).Recognition of amononucleosomal histone modification pattern by BPTF via multivalentinteractions(BPTF通过多价相互作用识别单核小体组蛋白修饰模式).Cell(细胞)145,692–706.

43.Santos-Rosa,H.,Schneider,R.,Bannister,A.J.,Sherriff,J.,Bernstein,B.E.,Emre,N.C.T.,Schreiber,S.L.,Mellor,J.,and Kouzarides,T.(2002).Activegenes are tri-methylated at K4of histone H3(活性基因在组蛋白H3K4处被三甲基化).Nature(自然)419,407–411.

44.Schubeler,D.(2004).The histone modification pattern of activegenes revealed through genome-wide chromatin analysis of a higher eukaryote(通过高等真核生物基因组范围的染色质分析揭示活性基因的组蛋白修饰模式).Genes&Development(基因和发育)18,1263–1271.

45.Shogren-Knaak,M.A.,and Peterson,C.L.(2003).Creating DesignerHistones by Native Chemical Ligation(通过天然化学连接生成设计者组蛋白).InMethods in Enzymology,C.David Allis和Carl Wu,ed.(Academic Press),pp.62–76.

46.TrygveTollefsbol Epigenetics in Human Disease 2012Academic Press.

47.Voigt,P.,Leroy,G.,Drury,W.J.,III,Zee,B.M.,Son,J.,Beck,D.B.,Young,N.L.,Garcia,B.A.,and Reinberg,D.(2012).Asymmetrically modified nucleosomes(不对称修饰的核小体).Cell(细胞)151,181–193.

48.Wan,Q.,and Danishefsky,S.J.(2007).Free-radical-based,specificdesulfurization of cysteine:a powerful advance in the synthesis ofpolypeptides and glycopolypeptides(基于自由基的半管氨酸的特定脱硫：合成多肽和糖多肽的巨大进展).Angew.Chem.Int.Ed Engl.46,9248–9252.

49.Young,N.L.,Dimaggio,P.A.,Plazas-Mayorca,M.D.,Baliban,R.C.,Floudas,C.A.,and Garcia,B.A.(2009).High throughput characterization of combinatorialhistone codes(组合组蛋白密码的高通量表征).Mol Cell Proteomics(分子生物学蛋白质组学)8,2266–2284.

50.Zhang,Y.,Liu,T.,Meyer,C.A.,Eeckhoute,J.,Johnson,D.S.,Bernstein,B.E.,Nussbaum,C.,Myers,R.M.,Brown,M.,Li,W.,et al.(2008).Model-based analysisof ChIP-Seq(MACS)(基于模型分析ChIP-Seq(MACS)).Genome Biol(基因组生物学)9,R137.

51.Zhang,Z.,and Pugh,B.F.(2011).High-resolution genome-wide mappingof the primary structure of chromatin(染色质一级结构的高分辨率基因组范围作图).Cell(细胞)144,175–186.

Claims

1.测定细胞染色质中基因组基因座上核心组蛋白第一表位的密度的方法，所述方法用于非诊断目的并且包括：

由所述染色质制备天然核小体库，其中所述库包含核小体，每个核小体含有核心组蛋白和指示所述基因组基因座的核小体核苷酸序列，并且至少一个核小体包含所述第一表位；

将标准物添加至所述库以生成掺杂库；其中所述标准物含有重构核小体，所述重构核小体包含(i)具有所述第一表位的标准组蛋白或标准组蛋白片段和(ii)含有连接至条形码分子的标准核苷酸序列的标准分子，其中所述标准组蛋白或标准组蛋白片段与所述标准核苷酸序列形成稳定的蛋白质-DNA结合体；

将第一亲和剂添加至所述掺杂库以捕获一定量的含有所述第一表位的天然核小体和含有所述第一表位的标准物；

通过将与所捕获的含所述第一表位的天然核小体相关的给定核苷酸序列的量和与掺杂库输入量的天然核小体相关的给定核苷酸序列的量进行比较，来测定所述第一表位的相对基因组丰度；

通过将与所捕获的标准物相关的条形码序列的量和与掺杂库输入量的标准物相关的给定核苷酸序列的量进行比较，来测定对所述第一表位的标准捕获效率；以及

通过将所述相对基因组丰度与所述标准捕获效率进行比较，来测定所述基因组基因座上核心组蛋白的第一表位的密度。

2.根据权利要求1所述的方法，其中测定标准捕获效率包括比较所述条形码分子的捕获量与所述重构核小体的输入量的比例。

3.根据权利要求1所述的方法，其中测定相对基因组丰度包括比较天然核小体核苷酸序列的捕获量与天然核小体核苷酸序列的输入量的比例。

4.根据权利要求1所述的方法，其中所述第一亲和剂为针对所述第一表位的抗体。

5.根据权利要求1所述的方法，其中将多种标准物添加到所述库，每种标准物含有包含(i)具有所述第一表位的标准组蛋白和(ii)含有连接至所述条形码分子的标准核苷酸序列的标准分子的重构核小体，其中所述条形码分子编码指示添加至所述库的标准物的浓度的浓度参数，并且其中将具有至少两种不同浓度的标准物添加至所述库。

6.根据权利要求5所述的方法，其中所述多种标准物还包括含有重构核小体的标准物，所述重构核小体包含(i)一个或多个脱靶(off-target)表位和(ii)编码脱靶表位身份信息并指示所述脱靶表位的浓度参数的标准分子条形码。

7.根据权利要求5所述的方法，其还包括基于对所述脱靶表位的一个或多个捕获效率测定所述第一亲和剂脱靶捕获的特异性，并基于脱靶捕获的特异性修正所述基因组基因座上核心组蛋白的第一表位的密度。

8.根据权利要求1所述的方法，其中所述第一表位为翻译后修饰或蛋白质同种型。

9.根据权利要求1所述的方法，其中所述条形码序列为所述细胞的所述基因组中没有的序列。

10.根据权利要求1所述的方法，其中通过选自PCR、qPCR、ddPCR、下一代测序、杂交、放射自显影、荧光标记、光密度和使用嵌入探针的方法来测定所述核小体核苷酸序列和所述标准物核苷酸序列中至少一个的丰度。

11.根据权利要求1所述的方法，其中所述核心组蛋白的第一表位含有选自以下的至少一种翻译后氨基酸修饰：丝氨酸和丙氨酸的N-乙酰化；丝氨酸、苏氨酸和酪氨酸的磷酸化；N-巴豆酰化；赖氨酸的N-乙酰化；赖氨酸的N6-甲基化、N6,N6-二甲基化、N6,N6,N6-三甲基化；精氨酸的ω-N-甲基化、对称-二甲基化、不对称-二甲基化；精氨酸的瓜氨酸化；赖氨酸的泛素化；赖氨酸的类泛素化；丝氨酸和苏氨酸的O-甲基化；以及精氨酸、天冬氨酸和谷氨酸的ADP-核糖基化。

12.根据权利要求1所述的方法，其中所述标准物分子为双链多核苷酸。

13.根据权利要求12所述的方法，其中所述双链多核苷酸包含选自SEQ ID.NO：1-115的核苷酸序列。

14.根据权利要求1所述的方法，其中所述条形码分子包含选自以下的分子：核苷酸条形码序列分子、锁核酸序列以及DNA序列。

15.根据权利要求1所述的方法，其还包括以下步骤中的至少一种：

校准染色质免疫沉淀试验；

量化染色质免疫沉淀试验；以及

评估亲和剂特异性。

16.测定细胞染色质中基因组基因座上核心组蛋白的第一表位的密度的方法，所述方法用于非诊断目的并且包括：

由所述染色质制备天然核小体库，其中所述库包含核小体，每个核小体包含核心组蛋白和指示其基因组基因座来源的核小体核苷酸序列，并且至少一个核小体包含所述第一表位；

将标准物添加至所述库以生成掺杂库；其中标准物包含重构核小体，所述重构核小体含有(i)具有所述第一表位的标准组蛋白或标准组蛋白片段和(ii)含有条形码分子的标准分子，其中所述标准组蛋白或标准组蛋白片段与所述标准分子形成稳定的蛋白质-DNA结合体；

通过将第二亲和剂添加至所述掺杂库以回收一定量的包含第二表位的核小体并测定所回收的包含所述第二表位的核小体的量中核小体核苷酸序列的量来测定所述掺杂库中所述基因组基因座上核心组蛋白的量，其中所述第二表位是核心组蛋白上的不变表位；

通过回收一定量的重构核小体并测定所回收的包含所述第二表位的重构核小体的量中所述标准分子的量来测定所述掺杂库中标准物的量，其中所述重构核小体包含所述第二表位；

将针对所述第一表位的第一亲和剂添加至所述掺杂库以捕获一定量的含有所述表位的天然核小体和含有所述表位的重构核小体；

基于所捕获的包含所述表位的标准物的量以及掺杂库中基因组基因座上核心组蛋白的量测定所述基因组基因座上第一表位的相对基因组丰度；

基于所捕获的重构核小体的量以及所述掺杂库中标准物的量，测定对所述表位的标准捕获效率；

基于所述核心组蛋白的第一表位丰度以及所述标准捕获效率，测定所述基因组基因座上核心组蛋白的第一表位的相对基因组丰度。

17.根据权利要求16所述的方法，其中所述第一亲和剂为针对所述第一表位的抗体，其中所述第二亲和剂为针对所述第二表位的抗体。

18.用于实施权利要求1所述的方法的试剂盒，其包含：

一种或多种标准物，每种标准物包含：

(i)具有细胞中基因组基因座上核心组蛋白的第一表位的标准组蛋白或标准组蛋白片段；以及

(ii)包含具有连接至条形码分子的标准核苷酸序列的标准分子，所述条形码分子包含指示标准物的浓度的条形码序列，所述条形码的长度为至少10个碱基对。

19.根据权利要求18所述的试剂盒，其中所述试剂盒包含识别所述多种表位中至少一种的至少一种亲和剂。