CN113481607A

CN113481607A - 一种精准定量的CUT＆Tag文库制备方法及试剂盒

Info

Publication number: CN113481607A
Application number: CN202110761967.1A
Authority: CN
Inventors: 李华; 弓晋欣; 俞振勋; 胥政昊
Original assignee: Suzhou Jingmai Biotechnology Co ltd
Current assignee: Suzhou Jingmai Biotechnology Co ltd
Priority date: 2020-11-04
Filing date: 2021-07-06
Publication date: 2021-10-08

Abstract

本申请提供一种精准定量的CUT&Tag文库制备方法及试剂盒，主要包括：提供两种衔接子，第一衔接子为5`‑S1‑S2‑S3‑3`，第二衔接子为5`‑S4‑S5‑S6‑3`，其中，所述S1为第一测序引物，S2为随机标签序列，S2的碱基为A、T、G、C中的一种或多种的随机组合，S2的碱基的数量为1‑95的任一整数，所述S3与S6的碱基序列相同、为Tn5转座子固定序列，S4为第二测序引物，S5为随机标签序列，S5的碱基为A、T、G、C中的一种或多种的随机组合，S5的碱基的数量为1‑100的任一整数；将所述两种衔接子与pA‑Tn5酶进行孵育得到转座复合体；再将转座复合体与测试样本进行孵育，得到扩增模板；将所述扩增模板进行PCR扩增，得到测序文库。

Description

一种精准定量的CUT＆Tag文库制备方法及试剂盒

技术领域

本发明涉及生物技术领域，更具体地，涉及一种精准定量的CUT&Tag文库制备方法及试剂盒。

背景技术

基因表达调控在多细胞生物的生长和发育中起关键作用。基因组调控，包括DNA甲基化，组蛋白修饰，转录因子及蛋白质复合物的差异结合，导致不同组织和不同发育时期的基因表达差异。目前用于研究染色质组分的方法有：1.ChIP(ChromatinImmunoprecipitation染色质免疫共沉淀技术)，是研究蛋白质与DNA相互作用的有效方法，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与二代测序技术相结合的ChIP-Seq技术，能在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。但是该方法操作繁琐、时间长(3-4天)，需要大量的细胞用于实验(一千万细胞)，交联会引起的表位掩盖，DNA产量低并且背景高。2.ChEC(染色质内源切割)&ChIC(染色质免疫切割)。这两种方法都是将无活性的微球菌核酸酶(MNase)与感兴趣的染色质蛋白结合，然后激活MNase裂解DNA，进行建库测序分析。但该方法引入了甲醛固定操作，会引起表位的掩盖。3.CUT&RUN(cleavage under targets and release using nuclease)，该产生的背景低，可以从至少1000个细胞中生成高质量的数据。但是该方法操作繁琐，成本高，时间长且不是十分适合应用于单细胞平台。4.CUT&Tag(在标靶和标签下裂解)，使用Tn5转座酶与蛋白A的融合蛋白(pA-Tn5),将其与抗体结合，激活pA-Tn5导致靶向因子标记，产生DNA测序片段。该方法不受交联引起的表位掩盖影响；产生的片段具有低背景的信号；实验时间短，仅需一天就可以完成实验。并且该过程高度灵敏，只需要100-100000个细胞。

目前市场上用于CUT&Tag高通量文库制备的试剂盒有诺维赞公司。这些试剂盒能满足不同的样品来源，最大程度的满足了科研应用，但是，目前市场上还没有一种能够完成原始文库精准定量的文库制备方法及试剂盒。现有的CUT&Tag文库的制备方法仍然存在系统性误差。因此，需要建立一种精准定量的CUT&Tag文库制备方法及试剂盒。

发明内容

本发明的目的在于提供一种精准定量的CUT&Tag文库制备方法及试剂盒，实现精准定量。

本申请的一方面，提供一种精准定量的CUT&Tag文库制备方法，所述方法包括：

(a)提供两种衔接子，第一衔接子为5`-S1-S2-S3-3`，第二衔接子为5`-S4-S5-S6-3`，所述S1为第一测序引物，S2为随机标签序列，S2的碱基为A、T、G、C中的一种或多种的随机组合，S2的碱基的数量为1-95的任一整数，所述S3与S6的碱基序列相同，为Tn5转座子固定序列，S4为第二测序引物，S5为随机标签序列，S5的碱基为A、T、G、C中的一种或多种的随机组合，S5的碱基的数量为1-100的任一整数；将所述两种衔接子与pA-Tn5酶进行孵育得到转座复合体；

(b)再将转座复合体与测试样本进行孵育，得到扩增模板；

(c)将所述扩增模板进行PCR扩增，得到测序文库。

在一些实施方式中，在步骤(a)中，所述S1为5`-TGTGAGAAATCTAGCATACGACTTCGTC-3`(SEQ ID NO:1),S3和S6的碱基序列为5`-AGATGTGTATAAGAGACAG-3`(SEQ ID NO:2),S4为5`-CTGACTCCACACTGTAGAAGCCATGACACGG-3`(SEQ ID NO:3)，S2的碱基的数量为10-50的任一整数。

进一步的，S2的碱基的数量为15-30的任一整数。

进一步的，两种衔接子与pA-Tn5酶混合前，分别将单链的第一衔接子和第二衔接子与单链M进行退火杂交形成双链衔接子，单链M的序列为5′-CTGTCTCTTATACACATCT-3(SEQID NO:4)。

进一步的，将pA-Tn5酶与合成的双链衔接子按照1：1的摩尔比进行混合，然后进行孵育，得到转座复合体。

在一些实施方式中，在步骤(b)中，转座复合体与测试样本进行孵育，得到含“衔接子-核酸-衔接子”复合物的混合物，将该混合物进行纯化，得到扩增模板。

进一步的，测试样本的数量为100-100000个。用台盼蓝染色观察并计数。

进一步的，将测试样本(细胞或细胞核)与ConA beads孵育或者低速离心，将孵育物置于磁力架或低速离心，去除上清，然后加入一抗进行孵育，离心去除上清，然后加入二抗进行孵育，离心去除上清，然后加入提前制备好的pA-Tn5复合物进行孵育，离心去除上清，然后加入镁离子溶液孵育，激活pA-Tn5，进行反应得到含“衔接子-核酸-衔接子”复合物的混合物，将该混合物进行纯化，得到扩增模板。

在一些实施方式中，在步骤(c)中，将扩增模板用能够特异性结合于第一衔接子的第一引物Primer1和特异性结合与第二衔接子的第二引物Primer2进行PCR反应，获得扩增产物，将扩增产物进行纯化，得到测序文库。

进一步的，所述Primer1的结构为P1-I1-P2，其中P1为5`-AATGATACGGCGACCACCGAGATCT-3`(SEQ ID NO:5)，I1为测序标签序列(index序列)，P2为5`-ACACTCTTTAGATCGTATGCTGAAGCAG-3`(SEQ ID NO:6)，所述Primer2的结构为P3-I2-P4，其中P3为5`-CAAGCAGAAGACGGCATACGAGAT-3`(SEQ ID NO:7)，I2为测序标签序列(index序列)，P4为5`-GACTGAGGTGTGACATCTTCGGTACTGTGCC-3`(SEQ ID NO:8)。

进一步的，所述I1选自：CTCTCTAT、TATCCTCT、AGAGTAGA、GTAAGGAG、ACTGCATA、AAGGAGTA、CTAAGCCT中的一种，所述I2选自：GCATGATC、TCCGTCTT、AGGACTCG、CCTGAGGA、ATCCGTAC、GAGAGATG、GTCTCTCC中的一种。

进一步的，将扩增产物采用MiniElute PCR纯化试剂盒纯化，纯化产物就是测序文库。

进一步的，通过Agilent 2100Bioanalyzer进行片段长度范围检测，通过Invitrogen Qubit进行浓度定量，二代测序为采用Illumina高通量测序平台。

本申请的另一方面，提供一种精准定量的CUT&Tag文库制备试剂盒，所述试剂盒包括：第一衔接子、第二衔接子、单链M和pA-Tn5酶，第一衔接子为5`-S1-S2-S3-3`，第二衔接子为5`-S4-S5-S6-3`，所述S1为第一测序引物，S2为随机标签序列，S2的碱基为A、T、G、C中的一种或多种的随机组合，S2的碱基的数量为1-95的任一整数，所述S3与S6的碱基序列相同、为Tn5转座子固定序列，S4为第二测序引物，S5为随机标签序列，S5的碱基为A、T、G、C中的一种或多种的随机组合，S5的碱基的数量为1-100的任一整数，将第一衔接子和第二衔接子与单链M进行退火杂交形成双链衔接子，将双链衔接子与pA-Tn5酶混合及孵育得到转座复合体，转座复合体与测试样本进行孵育得到扩增模板。

在一些实施方式中，所述S1为5`-TGTGAGAAATCTAGCATACGACTTCGTC-3`(SEQ IDNO:1),S3和S6的碱基序列为5`-AGATGTGTATAAGAGACAG-3`(SEQ ID NO:2),S4为5`-CTGACTCCACACTGTAGAAGCCATGACACGG-3`(SEQ ID NO:3)，S2的碱基的数量为10-50的任一整数。

进一步的，S2的碱基的数量为15-30的任一整数。

进一步的，单链M的序列为5′-CTGTCTCTTATACACATCT-3(SEQ ID NO:4)。

在一些实施方式中，转座复合体与测试样本进行孵育，得到含“衔接子-核酸-衔接子”复合物的混合物，将该混合物进行纯化，得到扩增模板。

在一些实施方式中，所述精准定量的CUT&Tag文库制备试剂盒还包括：能够与第一衔接子特异性结合的第一引物Primer1和能够与第二衔接子特异性结合的第二引物Primer2。

进一步的，将扩增模板用第一引物Primer1和第二引物Primer2进行PCR反应，获得扩增产物，将扩增产物进行纯化，得到测序文库。

传统的精准定量方法是通过直接在接头处连接一段随机序列来实验原始文库的定量，但Tn5的固定序列中包含了测序引物，传统方法的随机序列会加在Tn5固定序列后，而不是Tn5固定序列与目的序列之间，这种情况下在测序仪中无法测得每个片段的随机序列，因此无法实现精准定量。而我们新设计的方法是单独设计了一段特有的测序引物，在测序时同时使用这一独特的引物，而非测序仪公司自带的引物序列，通过该方法实现了测序从外侧新增加的位置开始，即S1、S4序列，通过这一设计，自然可以测到随机碱基以及后续的目的片段。

需要注意的是，现在常用的测序模式为PE150，即两端开始各测150bp的碱基，如果是使用了较长的随机序列，会导致目的序列测到的比较少，造成比对率下降，因此使用长的随机序列时，需改用更长的测序模式，例如PE250。

与现有技术相比，本发明的有益效果在于：

(1)本发明通过引入一段长度为1-100个随机核苷酸的衔接子与样品核酸片段连接，使得每一条核酸片段都有特定的标签，通过这些标签可以明确每一条核算片段的数量，从而实现精准定量。

(2本发明单独设计了一段特有的测序引物，在测序时同时使用这一独特的引物，而非测序仪公司自带的引物序列，通过该方法实现了测序从外侧新增加的位置开始，即S1、S4序列，通过这一设计，自然可以测到随机碱基以及后续的目的片段。

(3)目前我们所使用是随机序列为5-20bp，这个长度的随机序列是在能够实现精准定量且能够适应最常用的PE150测序模式所设计的。可以广泛的应用于各类高通量测序文库当中。

(4)本发明适合于针对各种细胞样品进行高通量测序文库的制备,所需都是常规实验技术以及容易购买到的试剂和药品,条件易得,操作简便,且后续数据分析方法亦不复杂，因此可被普通技术人员较快掌握。

附图说明

结合以下附图一起阅读时，将会更加充分地描述本申请内容的上述和其他特征。可以理解，这些附图仅描绘了本申请内容的若干实施方式，因此不应认为是对本申请内容范围的限定。通过采用附图，本申请内容将会得到更加明确和详细地说明。

图1为本申请的实施例1的Gene body富集曲线图。

图2为本申请的实施例2的Gene body富集曲线图。

具体实施方式

描述以下实施例以辅助对本申请的理解，实施例不是也不应当以任何方式解释为限制本申请的保护范围。

下列实施例中未注明具体条件的实验方法，按照常规实验条件，例如Sambrook等人的分子克隆实验室手册(New York:Cold Spring Harbor Laboratory Press，1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。除非有特别说明，否则实施例所用的材料均为市售产品。

实施例1：人hepg2细胞

转座复合体的制备：

(1)将商业购买得到的pA-Tn5与冰上解冻，使用前充分摇匀。

(2)将第一衔接子和第二衔接子分别与单链M退火杂交形成双链衔接子，单链M的序列为5'-CTGTCTCTTATACACATCT-3。

(3)将pA-Tn5与合成的双链衔接子，按照摩尔比1：1混合，于室温孵育1小时，得到转座复合体，-20℃保存。

测序文库制备：

(1)获取完整的人体hepg2细胞500000个，室温下600g，离心3min，弃上清。

(2)向步骤(1)得到的细胞中加入1mL Wash buffer(20mM HEPES,pH 7.5；150mMNaCl；0.5mM Spermidine；1×Protease inhibitor cocktail)，混匀，然后室温，600g离心3min。

(3)重复步骤(2)次，然后加入100μl Wash buffer重悬细胞。

(4)取10μl商业购买得到的ConA beads,然后加入200μl Wash buffer,混匀，然后置于磁力架(或低速离心)，待溶液澄清后，弃尽上清，然后用10μl Wash buffer重悬磁珠。

(5)向步骤(3)得到的100μl的细胞悬液中加入步骤(4)得到的磁珠，小心混匀，室温下旋转孵育15min。

(6)将步骤(5)的孵育物置于磁力架(或者低速离心)，待溶液澄清后，弃净上清。

(7)用100μl含有2mM EDTA的Dig-wash buffer(20mM HEPES pH 7.5；150mM NaCl；0.5mM Spermidine；1×Protease inhibitor cocktail；0.05％Digitonin)重悬步骤(6)得到的磁珠与细胞的混合物，然后根据stat3抗体说明书加入适当量的抗体，室温下旋转孵育2h。

(8)将步骤(7)得到复合物置于磁力架(或低速离心)，待溶液澄清后弃净上清。

(9)用Dig-wash buffer按照1：50稀释适当的二抗。然后用稀释好的二抗重悬步骤(8)得到的复合物，室温下旋转孵育1h。

(10)将步骤(9)孵育得到的混合物置于磁力架(或低速离心)，待溶液澄清后，弃净上清。

(11)然后向步骤(10)的混合物加入600μl Dig-wash buffer重悬细胞，混匀，然后置于磁力架(或低速离心)，待溶液澄清后，弃净上清。

(12)重复步骤(11)两次。

(13)用Dig-med Buffer(0.05％Digitonin,20mM HEPES,pH 7.5,300mM NaCl,0.5mM Spermidine,1×Protease inhibitor cocktail)稀释pA-Tn5复合物，使其终浓度达到0.4μM。然后重悬步骤(12)得到的混合物，混匀，室温下孵育1h。

(14)将步骤(13)得到的混合物置于磁力架(或低速离心)，待溶液澄清后，弃净上清。

(15)向步骤(14)得到的混合物加入Dig-med Buffer，混匀，置于磁力架(或低速离心)，待溶液澄清后，弃净上清。

(16)重复步骤(15)两次。

(17)向步骤(16)得到的混合物中加入50μl含有10mM MgCl₂的Dig-medBuffer，混匀，37℃孵育1h。

(18)在步骤(17)的混合物中加入10μl 0.5M EDTA，3μl 10％SDS和2.5μl 20mg/mlProteinase K，终止片段化反应。然后55℃孵育30min或者37℃过夜。

(19)向EP管中加入150μl Tris饱和酚和150μl氯仿，高速振荡2sec，16,000×g，室温离心5min。

(20)用移液器小心吸取上层水相至新的EP管中，加入300μl氯仿，上下颠倒10次，16,000×g室温离心3min。

(21)吸取上层水相至含有750μl 100％乙醇的EP管中，吹打混匀，置于冰上。

(22)冰上冷却后，4℃16,000×g离心15min。

(23)用移液器沿液面缓慢吸取，小心弃尽液体。

(24)向EP管中加入1ml 100％乙醇漂洗，4℃16,000×g离心1min。

(25)用移液器沿液面缓慢吸取，小心弃尽液体后，在空气中晾干。

(26)待EP管干燥后，加入25μl 1×TE，将样本于-20℃保存。

(27)取15μl步骤(26)得到核酸样品，1μl dNTP Mixture，10μl 5×AmplifyBuffer，1μl Amplify Enzyme，5μl primer1，5μl primer2，补水18μl。混用后进行PCR反应，72℃反应30s，98℃预变性30s，98℃变性15s，60℃退火30s，72℃延伸1min，执行16个循环后，72℃延伸5min，4℃保存。Primer1的序列为

5`-AATGATACGGCGACCACCGAGATCTGTAAGGAGACACTCTTTAGATCGTATGCTGAAGCA-3`；primer2的序列为

5`-CAAGCAGAAGACGGCATACGAGATGTCTCTCCGACTGAGGTGTGACATCTTCGGTACTGTGCC-3`。

(28)将步骤(27)得到的样品用使用MiniElute PCR纯化试剂盒纯化，得到测序文库。

二代测序及数据分析：

通过Agilent 2100Bioanalyzer进行片段长度范围检测和Invitrogen Qubit进行浓度定量之后，即可用于Illumina平台测序，得到测序数据。

(1)对样本的下机数据，使用FastQC和Trimmomatic进行数据质控和预处理(使用默认参数)，得到去除了低质量和测序接头的过滤后数据；

(2)将第一衔接子和第二衔接子中的随机标签序列S2、S5以及Tn5转座子序列S3、S6从有效数据的序列5’端移除，随后使用序列比对软件Bowtie2(-N 1-L 25-X 700--no-mixed--no-discordant，其余参数默认)将处理后的数据比对到人参考基因组(hg38)上(允许最多1个碱基错配)，获得定位于人参考基因组的位置信息；

(3)根据获得的序列比对位置信息以及对应的随机标签序列S2，对比对结果进行去除PCR重复的操作。具体而言，被Bowtie2软件比对至相同位置(即序列的5’端和3’端在人参考基因组中的比对位置相同)的序列，若带有不同的随机标签序列S2，则不被视为PCR重复，将全部保留作为后续分析的可用数据；

(4)使用Deeptools软件绘制可用数据在gene body位置的富集程度，根据上述的结果对CUT&Tag的可用数据进行质控；

(5)最后使用MACS2软件进行叫峰(peak calling)(-g hs--nomodel，其余参数默认)；

(6)使用IDR软件(默认参数)筛选重复样品中高可信度的峰用于后续分析。

对比分析：

实验组1:该组样品的数据分析方法采用上述分析步骤，得到的具体实验数据见表1中的“实验组”。

实验组2(不使用barcode):该组样品的处理步骤与实验组几乎相同，唯一的区别在于，数据分析时，不使用barcode进行分析，得到的具体实验数据见表1中的“实验组(不使用barcode)”。

对照组：将人体hepg2细胞采用上述相同的方法处理得到细胞核，然后采用常规的CUT&Tag文库制备方法进行建库，常规的方法进行二代测序及数据分析(不包含将Primer1中P1-I1，从序列5’端移除，及去除比对位置、I 1序列一致的数据的步骤)，得到的具体实验数据见表1中的“对照组”。

表1：Hepg2细胞系实验组1、实验组2(不使用barcode)及对照组的实验数据表

从表1中可见，在数据产出方面，如：原始数据、过滤后数据、及比对结果，不存在明显差异，但是，可用序列数及可用序列比例、峰数量、及高可信度峰数量方面，具有明显的区别，具体的，实验组1优于实验组2(不使用barcode)，实验组2(不使用barcode)与对照组相近。由此可见，本申请的精准定量的CUT&Tag文库制备方法及试剂盒，可明显提高数据的可用比例，提高比例为15.20％，并且最终得到的峰数量上升了约1200个左右。

Gene body富集热图，见图1，该图展示了在数据在gene body的分布密度，横坐标为距离转录起始位点及转录终止的距离，纵坐标为密度。从图1的Gene body富集热图中可以看出：改良实验中HumanA1、HumanA2样品的富集程度相比HumanB1、HumanB2(高度、峰面积)明显升高，另一方面，HumanA1、HumanA2样品的富集程度相比HumanC1、HumanC2同样是升高的，而HumanC1、HumanC2与HumanC1、HumanC2相比基本相同，说明改进的实验方法，不使用barcode的情况下，与现有方法相比相差不多，而通过barcode分析，挽回了一定的重复数据，明显提高了数据利用率。以上的比较充分说明改进后的技术保留了更多的有效数据。

实施例2：小鼠MFC细胞

转座复合体的制备：

(1)将商业购买得到的pA-Tn5与冰上解冻，使用前充分摇匀；

(2)将第一衔接子和第二衔接子分别与单链M退火杂交形成双链衔接子，单链M的序列为5′-CTGTCTCTTATACACATCT-3`。

(3)将pA-Tn5与合成的双链衔接子，按照摩尔比1：1混合，于室温孵育1小时，得到转座复合体。-20℃保存

测序文库制备；

(1)获取小鼠MFC细胞500000个，室温下600g，离心3min，弃上清。

(3)重复步骤(2)次，然后加入100μl Wash buffer重悬细胞。

(4)取10μl商业购买得到的ConA beads,然后加入200μl Wash buffer，混匀，然后置于磁力架(或低速离心)，待溶液澄清后，弃尽上清，然后用10μl Wash buffer重悬磁珠。

(6)将步骤(5)的孵育物置于磁力架(或者低速离心)，待溶液澄清后澄清后，弃净上清。

(12)重复步骤(11)两次。

(13)用Dig-med Buffer(0.05％Digitonin，20mM HEPES，pH 7.5，300mM NaCl，0.5mM Spermidine，1×Protease inhibitor cocktail)稀释pA-Tn5复合物，使其终浓度达到0.4μM。然后重悬步骤(12)得到的混合物，混匀，室温下孵育1h。

(16)重复步骤(15)两次。

(17)向步骤(16)得到的混合物中加入50μl含有10mM MgCl2的Dig-med Buffer，混匀，37℃孵育1h。

(19)向EP管中加入150μl Tris饱和酚和150μl氯仿，高速振荡2sec。16，000×g，室温离心5min。

(22)冰上冷却后，4℃16，000×g离心15min。

(23)用移液器沿液面缓慢吸取，小心弃尽液体。

(24)向EP管中加入1ml 100％乙醇漂洗，4℃16,000×g离心1min。

(26)待EP管干燥后，加入25μl 1×TE，将样本于-20℃保存。

(27)取15μl步骤(26)得到核酸样品，1μl dNTP Mixture，10μl5×AmplifyBuffer，1μl Amplify Enzyme，5μl primer1，5μl primer2，补水18μl。混用后进行PCR反应，72℃反应30s，98℃预变性30s，98℃变性15s，60℃退火30s，72℃延伸1min，执行16个循环后，72℃延伸5min，4℃保存。Primer1的序列为5`-AATGATACGGCGACCACCGAGATCTGTAAGGAGACACTCTTTAGATCGTATGCTGAAGCA-3`；primer2的序列为5`-CAAGCAGAAGACGGCATACGAGATGTCTCTCCGACTGAGGTGTGACATCTTCGGTACTGTGCC-3`。

(28)将步骤(24)得到的样品用使用MiniElute PCR纯化试剂盒纯化，得到测序文库。

二代测序及数据分析：

通过Agilent 2100 Bioanalyzer进行片段长度范围检测和Invitrogen Qubit进行浓度定量之后，即可用于Illumina平台测序，得到测序数据。

(2)将第一衔接子和第二衔接子中的随机标签序列S2、S5以及Tn5转座子序列S3、S6从有效数据的序列5’端移除，随后使用序列比对软件Bowtie2(-N1-L25-X700--no-mixed--no-discordant，其余参数默认)将处理后的数据比对到小鼠参考基因组(mm10)上(允许最多1个碱基错配)，获得定位于小鼠参考基因组的位置信息；

(3)根据获得的序列比对位置信息以及对应的随机标签序列S2，对比对结果进行去除PCR重复的操作。具体而言，被Bowtie2软件比对至相同位置(即序列的5’端和3’端在小鼠参考基因组中的比对位置相同)的序列，若带有不同的随机标签序列S2，则不被视为PCR重复，将全部保留作为后续分析的可用数据；

(4)使用Deeptools软件绘制可用数据在genebody位置的富集程度。根据上述的结果对CUT&Tag的可用数据进行质控；

(5)最后使用MACS2软件进行叫峰(peak calling)(-ghs--nomodel，其余参数默认)；

对比分析：

实验组2(不使用barcode):该组样品的处理步骤与实验组相同，数据分析时，使用标准分析方法进行分析，标准分析方法与上述分析方法的区别在于不使用S2的barcode，得到的具体实验数据见表1中的“实验组(不使用barcode)”。

对照组：将MFC细胞采用上述相同的方法处理，然后采用常规的CUT&Tag文库制备方法进行建库测序，使用标准分析方法进行数据分析，得到的具体实验数据见表2中的“对照组”。

表2：小鼠MFC细胞系实验组1、实验组2(不使用barcode)及对照组的实验数据表

从表2中可见，在数据产出方面，如：原始数据、过滤后数据、及比对结果，不存在明显差异，但是，可用序列数及可用序列比例、峰数量、及高可信度峰数量方面，具有明显的区别，具体的，实验组1优于实验组2(不使用barcode)，实验组2(不使用barcode)优于对照组。由此可见，本申请的精准定量的CUT&Tag文库制备方法及试剂盒，可明显提高数据的可用比例，提高比例为8.35％，并且最终得到的峰数量上升了约1800个左右。

Gene body富集热图，见图2，该图展示了在数据在gene body的分布密度，横坐标为距离转录起始位点及转录终止的距离，纵坐标为密度。从图1的Gene body富集热图中可以看出：改良实验中MMUA1、MMUA2样品的富集程度相比MMUB1,MMUB2(高度、峰面积)明显升高，另一方面，MMUA1、MMUA2样品的富集程度相比MMUC1,MMUC2同样是升高的，而MMUC1、MMUC2与MMUB1,MMUB2相比基本相同，说明改进的实验方法，不使用barcode的情况下，与现有方法相比相差不多，而通过barcode分析，挽回了一定的重复数据，明显提高了数据利用率。以上的比较充分说明改进后的技术保留了更多的有效数据。

尽管本申请已公开了多个方面和实施方式，但是其它方面和实施方式对本领域技术人员而言将是显而易见的，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。本申请公开的多个方面和实施方式仅用于举例说明，其并非旨在限制本申请，本申请的实际保护范围以权利要求为准。

Claims

1.一种精准定量的CUT&Tag文库制备方法，其特征在于，所述方法包括：

(a)提供两种衔接子，第一衔接子为5`-S1-S2-S3-3`，第二衔接子为5`-S4-S5-S6-3`，所述S1为第一测序引物，S2为随机标签序列，S2的碱基为A、T、G、C中的一种或多种的随机组合，S2的碱基的数量为1-95的任一整数，所述S3与S6的碱基序列相同、为Tn5转座子固定序列，S4为第二测序引物，S5为随机标签序列，S5的碱基为A、T、G、C中的一种或多种的随机组合，S5的碱基的数量为1-100的任一整数；将所述两种衔接子与pA-Tn5酶进行孵育得到转座复合体；

(b)再将转座复合体与测试样本进行孵育，得到扩增模板；

(c)将所述扩增模板进行PCR扩增，得到测序文库。

2.如权利要求1所述的精准定量的CUT&Tag文库制备方法，其特征在于，在步骤(a)中，所述S1为5`-TGTGAGAAATCTAGCATACGACTTCGTC-3`,S3和S6的碱基序列为5`-AGATGTGTATAAGAGACAG-3`,S4为5`-CTGACTCCACACTGTAGAAGCCATGACACGG-3`，S2的碱基的数量为10-50的任一整数。

3.如权利要求2所述的精准定量的CUT&Tag文库制备方法，其特征在于，两种衔接子与pA-Tn5酶混合前，分别将单链的第一衔接子和第二衔接子与单链M进行退火杂交形成双链衔接子，单链M的序列为5'-CTGTCTCTTATACACATCT-3；将pA-Tn5酶与合成的双链衔接子按照1：1的摩尔比进行混合，然后进行孵育，得到转座复合体。

4.如权利要求1所述的精准定量的CUT&Tag文库制备方法，其特征在于，在步骤(b)中，转座复合体与测试样本进行孵育，得到含“衔接子-核酸-衔接子”复合物的混合物，将该混合物进行纯化，得到扩增模板；在步骤(c)中，将扩增模板用能够特异性结合于第一衔接子的第一引物Primer1和特异性结合与第二衔接子的第二引物Primer2进行PCR反应，获得扩增产物，将扩增产物进行纯化，得到测序文库。

5.如权利要求4所述的精准定量的CUT&Tag文库制备方法，其特征在于，所述Primer1的结构为P1-I1-P2，其中P1为5`-AATGATACGGCGACCACCGAGATCT-3`，I1为测序标签序列，P2为5`-ACACTCTTTAGATCGTATGCTGAAGCAG-3`，所述Primer2的结构为P3-I2-P4，其中P3为5`-CAAGCAGAAGACGGCATACGAGAT-3`，I2为测序标签序列，P4为5`-GACTGAGGTGTGACATCTTCGGTACTGTGCC-3`。

6.如权利要求5所述的精准定量的CUT&Tag文库制备方法，其特征在于，进一步的，所述I1选自：CTCTCTAT、TATCCTCT、AGAGTAGA、GTAAGGAG、ACTGCATA、AAGGAGTA、CTAAGCCT中的一种，所述I2选自：GCATGATC、TCCGTCTT、AGGACTCG、CCTGAGGA、ATCCGTAC、GAGAGATG、GTCTCTCC中的一种。

7.一种精准定量的CUT&Tag文库制备试剂盒，其特征在于，所述试剂盒包括：第一衔接子、第二衔接子、单链M和pA-Tn5酶，第一衔接子为5`-S1-S2-S3-3`，第二衔接子为5`-S4-S5-S6-3`，所述S1为第一测序引物，S2为随机标签序列，S2的碱基为A、T、G、C中的一种或多种的随机组合，S2的碱基的数量为1-95的任一整数，所述S3与S6的碱基序列相同、为Tn5转座子固定序列，S4为第二测序引物，S5为随机标签序列，S5的碱基为A、T、G、C中的一种或多种的随机组合，S5的碱基的数量为1-100的任一整数，将第一衔接子和第二衔接子与单链M进行退火杂交形成双链衔接子，将双链衔接子与pA-Tn5酶混合及孵育得到转座复合体，转座复合体与测试样本进行孵育得到扩增模板。

8.如权利要求7所述的精准定量的CUT&Tag文库制备试剂盒，其特征在于，所述试剂盒包括选自下组的一个或多个特征：

(1)所述S1为5`-TGTGAGAAATCTAGCATACGACTTCGTC-3`,S3和S6的碱基序列为5`-AGATGTGTATAAGAGACAG-3`,S4为5`-CTGACTCCACACTGTAGAAGCCATGACACGG-3`，S2的碱基的数量为10-50的任一整数；

(2)单链M的序列为5'-CTGTCTCTTATACACATCT-3；

(3)将pA-Tn5酶与合成的双链衔接子按照1：1的摩尔比进行混合，然后进行孵育，得到转座复合体；

(4)转座复合体与测试样本进行孵育，得到含“衔接子-核酸-衔接子”

复合物的混合物，将该混合物进行纯化，得到扩增模板。

9.如权利要求7所述的精准定量的CUT&Tag文库制备试剂盒，其特征在于，所述精准定量的CUT&Tag文库制备试剂盒还包括：能够与第一衔接子特异性结合的第一引物Primer1和能够与第二衔接子特异性结合的第二引物Primer2。

10.如权利要求9所述的精准定量的CUT&Tag文库制备试剂盒，其特征在于，所述试剂盒包括选自下组的一个或多个特征：

(1)将扩增模板用第一引物Primer1和第二引物Primer2进行PCR反应，获得扩增产物，将扩增产物进行纯化，得到测序文库；

(2)所述Primer1的结构为P1-I1-P2，其中P1为5`-AATGATACGGCGACCACCGAGATCT-3`，I1为测序标签序列，P2为5`-ACACTCTTTAGATCGTATGCTGAAGCAG-3`，所述Primer2的结构为P3-I2-P4，其中P3为5`-CAAGCAGAAGACGGCATACGAGAT-3`，I2为测序标签序列，P4为5`-GACTGAGGTGTGACATCTTCGGTACTGTGCC-3`；所述I1选自：CTCTCTAT、TATCCTCT、AGAGTAGA、GTAAGGAG、ACTGCATA、AAGGAGTA、CTAAGCCT中的一种，所述I2选自：GCATGATC、TCCGTCTT、AGGACTCG、CCTGAGGA、ATCCGTAC、GAGAGATG、GTCTCTCC中的一种。