CN116287124A

CN116287124A - 单链接头预连接方法、高通量测序文库的建库方法及试剂盒

Info

Publication number: CN116287124A
Application number: CN202310589723.9A
Authority: CN
Inventors: 徐炜; 孙长斌
Original assignee: Agricultural Genomics Institute at Shenzhen of CAAS
Current assignee: Agricultural Genomics Institute at Shenzhen of CAAS
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-06-23

Abstract

本发明提供了一种单链接头预连接方法、高通量测序文库的建库方法及试剂盒。其中，该单链接头预连接方法包括：a）利用末端转移酶将样本DNA的3'端进行延伸形成外延的单链DNA结构，获得延伸DNA；b）在夹板的作用下，将延伸DNA和单链接头进行连接，获得预连接缺刻DNA，单链DNA结构3'端和单链接头的5'端相邻并存在缺刻；c）利用DNA连接酶以磷酸二酯键连接缺刻，获得单链接头预连接DNA；其中，单链接头从5'端至3'端依次包括：夹板互补区域、条形码区域和测序接头区域。能够解决现有技术中对于特殊形态的DNA结构基于双链DNA的建库方法难以进行标记建库的问题，实现多样本同步建库，适用于高通量测序领域。

Description

单链接头预连接方法、高通量测序文库的建库方法及试剂盒

技术领域

本发明涉及高通量测序领域，具体而言，涉及一种单链接头预连接方法、高通量测序文库的建库方法及试剂盒。

背景技术

高通量二代测序技术的快速发展，测序成本的不断降低，已经广泛应用于人类疾病的筛查和诊断、分子育种等领域，产生了巨大的经济和社会效益。测序文库的构建，是高通量测序技术的关键技术环节之一，其中对不同样本建立索引（indexing），即标记一段条形码序列（barcode），可实现多个样本同步测序，是建库测序的重要策略，能够提高建库通量、缩短建库周期、降低建库成本。

当前，对样本建立索引主要还是在文库构建的最后一步扩增环节，前期大部分步骤仍需对单个样本分别进行操作，造成建库成本居高不下，且一定时间范围内开展建库的样本数量也会受到很大的限制。因而，样本DNA起始阶段标记技术的开发，可实现多个样本混合一起进行后续文库的构建，提高建库效率和通量。由此建立的高通量建库方法，不仅能够降低建库成本，并且一定程度上可以消减每个样本分别建库过程中因试剂、仪器、操作等引起的批次效应。

近期，已开发了一些技术对样本进行标记，如（1）通过Tn5转座酶把带有标签的寡核苷酸接头插入到基因组DNA中，构建了一系列微量、超微量甚至单细胞水平的文库构建技术，这些技术包括scATAC-seq

、CUT&Tag/>

、CoBATCH/>

、CoTECH/>

等；（2）通过携带有标签的引物对基因组进行扩增，如基于10× Genomics的scRNA-seq（https://www.10xgenomics.com/）等；（3）对样本进行接头预连接，在建库的起始阶段使用携带有标签的接头进行连接标记样本，标记后的样本混合后即可同步进行建库的后续操作，如iChIP

、Co-ChIP/>

等。这些方法大大促进了测序建库技术的发展及其在生物学领域的应用，但仍然存在局限性：以双链DNA为底物进行文库的构建。在基因组中，除了双链DNA还存在大量单链DNA、DNA-RNA杂合链等形态。对于这些形态的DNA，现有的上述基于双链DNA的建库方法无法进行标记和建库。

发明内容

本发明的主要目的在于提供一种单链接头预连接方法、高通量测序文库的建库方法及试剂盒，以解决现有技术中对于特殊形态的DNA结构基于双链DNA的建库方法难以进行标记建库的问题。

为了实现上述目的，根据本发明的第一个方面，提供了一种单链接头预连接方法，该单链接头预连接方法包括：a）利用末端转移酶将样本DNA的3'端进行延伸形成外延的单链DNA结构，获得延伸DNA；b）在夹板的作用下，将延伸DNA和单链接头进行连接，获得预连接缺刻DNA，单链DNA结构3'端和单链接头的5'端相邻并存在缺刻；c）利用DNA连接酶以磷酸二酯键连接缺刻，获得单链接头预连接DNA；其中，单链接头从5'端至3'端依次包括：夹板互补区域、条形码区域和测序接头区域；条形码区域为4-12个碱基组合的序列；夹板包括5'端的单链接头结合区和3'端的目标片段结合区；单链接头结合区与夹板互补区域互补配对；目标片段结合区与外延的单链DNA结构互补配对。

进一步地，在单链接头的夹板互补区域和条形码区域之间还包括唯一标识符区域；优选地，测序接头区域的3'端含有3'封闭修饰；优选地，目标片段结合区包括（AAAA）_n、（CCCC）_n、（GGGG）_n、（TTTT）_n、（RRRR）_n、（YYYY）_n、（KKKK）_n、（MMMM）_n、（SSSS）_n、（WWWW）_n、（BBBB）_n、（DDDD）_n、（HHHH）_n、（VVVV）_n或（NNNN）_n，其中n表示碱基个数，n为4-8中任意整数；大写字母表示不同脱氧核苷酸碱基类型或组合，其中A：腺嘌呤；T：胸腺嘧啶；C：胞嘧啶；G：鸟嘌呤；Y：胞嘧啶或胸腺嘧啶；R：腺嘌呤或鸟嘌呤；M：腺嘌呤或胞嘧啶；K：鸟嘌呤或胸腺嘧啶；W：腺嘌呤或胸腺嘧啶；S：胞嘧啶或鸟嘌呤；V：腺嘌呤、胞嘧啶或鸟嘌呤；H：腺嘌呤、胞嘧啶或胸腺嘧啶；D：腺嘌呤、鸟嘌呤或胸腺嘧啶；B：胞嘧啶、鸟嘌呤或胸腺嘧啶；N：腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶。优选地，单链接头预连接方法包括：在单链接头连接时，连接体系中含有聚乙二醇；优选地，聚乙二醇包括PEG2000、PEG4000、PEG6000或PEG8000中的一种或多种；优选地，聚乙二醇在连接体系中的质量浓度为5%-30%。优选地，a）、b）和c）能够分步或同时进行，获得单链接头预连接DNA；优选地，样本DNA包括双链DNA、单链DNA或DNA-RNA杂合链中的一种或多种。

进一步地，将样本DNA、夹板、DNA连接酶和单链接头混合于T4 RNA连接酶缓冲液或T4 DNA连接酶缓冲液中，形成连接体系。

进一步地，脱氧核糖核苷酸三磷酸包括脱氧腺苷5'-三磷酸、脱氧鸟苷5'-三磷酸、脱氧胞苷5'-三磷酸和脱氧胸腺苷5'-三磷酸其中的一种、两种、三种或四种，在单链接头预连接方法中，末端转移酶催化各脱氧核糖核苷酸三磷酸结合至样本DNA的3'端羟基，各脱氧核糖核苷酸三磷酸依次结合形成单链DNA结构；优选地，脱氧核糖核苷酸三磷酸为脱氧鸟苷5'-三磷酸。

为了实现上述目的，根据本发明的第二个方面，提供了一种高通量二代测序文库的建库方法，该建库方法包括：利用上述单链接头预连接方法获得单链接头预连接DNA；利用能够与单链接头特异性结合的引物对单链接头预连接DNA进行扩增，得到连接3'端接头的双链DNA产物；对连接3'端接头的双链DNA产物进行5'端接头连接，得到双端接头产物；对双端接头产物进行扩增，获得高通量二代测序文库。

进一步地，当样本DNA为基因组DNA中的R-loop时，建库方法包括：片段化处理不同样本的基因组DNA，获得各基因组对应的片段化DNA；利用单链接头预连接方法，将携带不同条形码区域的单链接头分别与各基因组对应的片段化DNA连接，获得不同的单链接头预连接DNA；混合不同的单链接头预连接DNA，进行免疫共沉淀，获得单链接头连接R-loop DNA，单链接头连接R-loop DNA为来源于R-loop的、连接有单链接头的DNA-RNA杂合链；利用能够与单链接头特异性结合的引物，对单链接头连接R-loop DNA进行扩增，获得R-loop的测序文库。

进一步地，当样本DNA为细胞的染色质中靶向蛋白的DNA时，建库方法包括：片段化处理不同的染色质，获得各染色质对应的片段化DNA；利用单链接头预连接方法，将携带不同条形码区域的单链接头分别与各染色质对应的片段化DNA连接，获得不同的单链接头预连接DNA；混合不同的单链接头预连接DNA，利用抗体进行免疫共沉淀，获得单链接头连接靶向DNA，单链接头连接靶向DNA为连接有单链接头的靶向蛋白的DNA，利用能够与单链接头特异性结合的引物，对单链接头连接靶向DNA进行扩增，获得靶向蛋白的DNA的测序文库。

进一步地，不同的染色质通过如下方法获得：利用交联剂固定不同的细胞，对固定的细胞进行裂解，获得不同的染色质；交联剂包括甲醛；裂解包括利用化学裂解、机械裂解或酶裂解对细胞进行裂解。

为了实现上述目的，根据本发明的第三个方面，提供了一种单链接头试剂盒，该单链接头试剂盒包括单链接头、夹板和末端转移酶；单链接头从5'端至3'端依次包括：夹板互补区域、条形码区域和测序接头区域；条形码区域为4-12个碱基的组合；夹板包括5'端的单链接头结合区和3'端的目标片段结合区；单链接头结合区能够和夹板互补区域进行特异性结合；目标片段结合区能够和待连接的目标片段进行特异性结合，从而将夹板与目标片段连接。

进一步地，在单链接头的夹板互补区域和条形码区域之间还包括唯一标识符区域；优选地，测序接头区域的3'端含有3'封闭修饰；优选地，单链接头试剂盒还包括连接缓冲液，连接缓冲液中含有DNA连接酶和/或聚乙二醇；优选地，连接缓冲液包括T4 RNA连接酶缓冲液或T4 DNA连接酶缓冲液；优选地，聚乙二醇包括PEG2000、PEG4000、PEG6000或PEG8000中的一种或多种；优选地，聚乙二醇的质量浓度为5%-30%；优选地，目标片段结合区包括（AAAA）_n、（CCCC）_n、（GGGG）_n、（TTTT）_n、（RRRR）_n、（YYYY）_n、（KKKK）_n、（MMMM）_n、（SSSS）_n、（WWWW）_n、（BBBB）_n、（DDDD）_n、（HHHH）_n、（VVVV）_n或（NNNN）_n，其中n表示碱基个数，n为4-8中任意整数；大写字母表示不同脱氧核苷酸碱基类型或组合，其中A：腺嘌呤；T：胸腺嘧啶；C：胞嘧啶；G：鸟嘌呤；Y：胞嘧啶或胸腺嘧啶；R：腺嘌呤或鸟嘌呤；M：腺嘌呤或胞嘧啶；K：鸟嘌呤或胸腺嘧啶；W：腺嘌呤或胸腺嘧啶；S：胞嘧啶或鸟嘌呤；V：腺嘌呤、胞嘧啶或鸟嘌呤；H：腺嘌呤、胞嘧啶或胸腺嘧啶；D：腺嘌呤、鸟嘌呤或胸腺嘧啶；B：胞嘧啶、鸟嘌呤或胸腺嘧啶；N：腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶。

应用本发明的技术方案，利用上述单链接头预连接方法、高通量测序文库的建库方法及试剂盒，首先通过末端转移酶将样本DNA进行3'端延伸，在夹板的辅助下将单链接头连接在样本DNA的3'端，获得单链接头预连接DNA。利用此种单链接头预连接DNA进行建库，从而实现对于多种形态的DNA，尤其是DNA-RNA杂合链、或基因组水平与蛋白质相互作用的DNA等DNA的高通量建库，能够实现多样本同步免疫共沉淀处理和建库，具有建库通量高、建库成本低的优点，能够缩短建库周期，也能够消减每个样本分别建库过程中因试剂、仪器、操作等引起的批次效应。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明实施例1的单链接头结构示意图。

图2示出了根据本发明实施例2的夹板结构示意图，其中，A为不同碱基类型夹板的示意图；B为退火条件下形成部分互补的单链接头/夹板结构示意图。

图3示出了根据本发明实施例3的基于3'延伸和单链接头/夹板结构的连接示意图。

图4示出了根据本发明实施例4的基于3'延伸和单链接头/夹板结构的建库示意图。

图5示出了根据本发明实施例5的DNA-RNA杂合链体外合成图，其中，A为DNA-RNA杂合链体外合成流程图；B为DNA-RNA杂合链RNaseH消化验证电泳图；C为DNA-RNA杂合链测序模板链（Hybrid TS）和非模板链（Hybrid NTS）的测序结果图。

图6示出了根据本发明实施例6的TdT对不同类型DNA3'端的延伸的结果图，其中，A为对单链DNA底物延伸的电泳图；B为对DNA-RNA杂合链底物延伸的电泳图；C为对双链DNA底物延伸的电泳图；D为对DNA-RNA杂合链底物（1 mM CoCl₂反应体系）延伸的电泳图；E为对双链DNA底物（1 mM CoCl₂反应体系）延伸的电泳图。

图7示出了根据本发明实施例7的单链接头连接方法的结果图，其中，A为对单链DNA底物连接的电泳图；B为对双链DNA底物连接的电泳图；C为对DNA-RNA杂合链底物连接的电泳图。

图8示出了根据本发明实施例8的不同类型碱基延伸对单链接头连接效率影响的结果图，其中，A为不同类型碱基延伸对单链DNA的连接效率的结果图，B为不同类型碱基延伸对单链DNA的连接效率的电泳图，C为不同类型碱基延伸对双链DNA的连接效率的结果图，D为不同类型碱基延伸对双链DNA的连接效率的电泳图，E为不同类型碱基延伸对DNA-RNA杂合链底物的连接效率的结果图，F为不同类型碱基延伸对DNA-RNA杂合链底物的连接效率的电泳图。

图9示出了根据本发明实施例9的PEG浓度及分子量对单链接头连接效率影响的结果图，其中，A为不同PEG浓度及分子量对单链接头连接双链DNA的电泳图；B为7.5% PEG8000反应体系下单链DNA连接反应电泳图，C为7.5% PEG8000反应体系下DNA-RNA杂合链连接反应电泳图。

图10示出了根据本发明实施例10的HD-seq对DNA-RNA杂合链底物建库的结果图，其中，A为变性和非变性cDNA HD-seq检测基因数线型图（FPKM阈值0-1范围）；B为变性和非变性cDNA HD-seq检测基因数韦氏图（FPKM ≥ 1）；C为表达基因两两样本散点图。

图11示出了根据本发明实施例11的mDRIP-seq建库流程图。

图12示出了根据本发明实施例11的mDRIP-seq建库步骤示意图。

图13示出了根据本发明实施例12的mDRIP-seq应用于基因组水平R-loop检测的结果图，其中，A为mDRIP-seq和ssDRIP-seq检测小鼠细胞系NIH/3T3基因组R-loop分布可视化示意图；B为mDRIP-seq和ssDRIP-seq检测小鼠细胞系HEK293T基因组R-loop分布可视化示意图；C为mDRIP-seq检测小鼠细胞系NIH/3T3基因组R-loop重复样本间相关性分析散点图；D为mDRIP-seq和ssDRIP-seq检测小鼠细胞系NIH/3T3基因组R-loop相关性分析散点图；E为mDRIP-seq检测人细胞系HEK293T基因组R-loop重复样本间相关性分析散点图；F为mDRIP-seq和ssDRIP-seq检测人细胞系HEK293T基因组R-loop相关性分析散点图；G为潜在交叉污染分析柱状图。

图14示出了根据本发明实施例12的mDRIP-seq应用于基因组水平R-loop检测的结果图，其中，A为mDRIP-seq和ssDRIP-seq检测到的R-loop峰大小箱形图；B为mDRIP-seq和ssDRIP-seq检测到的R-loop峰在基因组中的分布示意图；C为mDRIP-seq和ssDRIP-seq检测小鼠细胞系NIH/3T3基因组R-loop峰AT合GC skew得分热图；D为mDRIP-seq和ssDRIP-seq检测小鼠细胞系HEK293T基因组R-loop峰AT合GC skew得分热图。

图15为根据本发明实施例12的mDRIP-seq应用于多物种基因组水平R-loop检测的结果图，其中，A-F为mDRIP-seq同步检测大肠杆菌K12（A）、酵母BY4741（B）、拟南芥Col-0（C）和水稻9311（D）基因组R-loop分布可视化示意图，并显示ssDRIP-seq、S1-DRIP-seq、DRIPc-seq公共数据作为参考；

图16为根据本发明实施例12的mDRIP-seq应用于多物种基因组水平R-loop检测的结果图，其中，A和B为人细胞系HEK293T（A）和小鼠细胞系NIH/3T3（B）基因组R-loop分布可视化示意图，并显示ssDRIP-seq、S1-DRIP-seq、DRIPc-seq公共数据作为参考，C-H为mDRIP-seq和其他方法检测大肠杆菌K12（C）、酵母BY4741（D）、拟南芥Col-0（E）、水稻9311（F）、人细胞系HEK293T（G）和小鼠细胞系NIH/3T3（H）基因组R-loop分布相关性分析散点图。

图17为根据本发明实施例13的不同建库策略检测覆盖度比较示意图，其中，A为基于双链建库策略接头预连接示意图，B为基于单链建库策略接头预连接示意图。

图18为根据本发明实施例13的mChIP-seq建库流程示意图。

图19为根据本发明实施例14的mChIP-seq在酵母组H3K4me1蛋白修饰图谱绘制中的应用的结果图，其中，A为常规ChIP-seq（n = 2）和mChIP-seq（n = 3）检测酵母H3K4me1图谱相关性分析散点图，bin大小为100 bp，总计划分为121579个bin，r表示Pearson相关系数；B为常规ChIP-seq和mChIP-seq检测酵母H3K4me1组蛋白修饰基因组分布可视化示意图。

图20为根据本发明实施例15的mChIP-seq建库数据分析示意图，其中，A为预接标记接头拆分测序数据拆分效果的柱状图；B为10个细胞系mDRIP-seq拆分后个样本数据的柱状图，总共三个mDRIP-seq文库，每个文库中包含了每个细胞系的两个重复； C为mDRIP-seq每个样本总比对率的柱状图；D为潜在交叉污染分析的柱状图；

图21为根据本发明实施例15的mChIP-seq建库数据分析示意图，其中，A为HEK293TmDRIP-seq 和ssDRIP-seq样本相关性分析热图（n = 11176）；B为NIH/3T3 mDRIP-seq 和ssDRIP-seq样本R-loop基因组分布相关性分析热图（n = 10447）。

图22为根据本发明实施例15的mChIP-seq建库数据分析示意图，其中，A为mDRIP-seq检测多个细胞系R-loop基因组分布可视化示意图，B为PCA降维显示mDRIP-seq的稳定性和再现性效果结果图，C为曲线图显示不同样本条件下mDRIP-seq和ssDRIP所用操作时长的比较的结果图，D为曲线图显示不同样本条件下mDRIP-seq和ssDRIP所用建库成本的比较的结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

如背景技术所提到的，在基因组中，除了双链DNA还存在大量单链DNA、DNA-RNA杂合链等形态的DNA，现有技术难以对这些形态的DNA进行标记和建库，且建库通量较低，成本较高。因而，在本申请中发明人尝试开发一种新型的高通量二代测序的建库方法，利用末端转移酶延伸DNA 3'端形成独特的单链结构（Terminal deoxynucleotidyl transferase:the story of a misguided DNA polymerase），建立单链连接技术，将携带有条形码信息的单链接头连接到DNA的3'端。进一步，标记的样本可混合一起进行同步免疫共沉淀等建库操作，提高建库效率。基于此，本发明可应用于且不限于特殊DNA结构如DNA-RNA杂合链、DNA-蛋白质相互作用等研究领域的二代建库测序，提高建库通量，节约建库成本，缩短建库周期，提出了本申请的一系列保护方案。

在本申请第一种典型的实施方式中，提供了一种单链接头预连接方法，该单链接头预连接方法包括：a）利用末端转移酶（TdT）将样本DNA的3'端进行延伸形成外延的单链DNA结构，获得延伸DNA；b）在夹板的作用下，将延伸DNA和单链接头进行连接，获得预连接缺刻DNA，单链DNA结构3'端和单链接头的5'端相邻并存在缺刻；c）利用DNA连接酶以磷酸二酯键连接缺刻，获得单链接头预连接DNA；其中，单链接头从5'端至3'端依次包括：夹板互补区域、条形码区域（barcode）和测序接头区域；条形码区域为4-12个碱基组合的序列；夹板包括5'端的单链接头结合区和3'端的目标片段结合区；单链接头结合区与夹板互补区域互补配对；目标片段结合区与外延的单链DNA结构互补配对。

上述样本DNA包括多种形态DNA，包括但不限于游离或与蛋白质交联状态下的双链DNA、单链DNA以及DNA-RNA杂合链中的DNA等。利用上述末端转移酶，能够在没有模板的情况下，催化脱氧核糖核苷酸三磷酸结合到DNA的3'端羟基，对样本DNA的3'端进行延伸形成外延的单链DNA结构，不改变原有DNA单链、双链或DNA-RNA杂合链的形态的结构，获得具有外延的单链DNA结构的延伸DNA。

上述夹板的5'端为单链接头结合区，该单链接头结合区的序列能够和单链接头的夹板互补区域进行碱基互补配对；夹板的3'端为目标片段结合区，该目标片段结合区能够和后续待连接的目标片段进行碱基互补配对。通过上述碱基互补配对，能够利用形成单链接头-夹板-目标片段的连接体，目标片段的3'端和单链接头的5'端在夹板的作用下相邻但未以磷酸二酯键相连接，形成带有缺刻的预连接缺刻DNA。

DNA连接酶能够将上述缺刻以磷酸二酯键相连接，从而实现单链接头与样本DNA的连接，获得单链接头预连接DNA。

上述单链接头中的条形码区域包括但不限于4个、5个、6个、7个、8个、9个、10个、11个、12个或更多碱基序列的组合，利用不同碱基。如条形码区域为6个碱基的组合，每个碱基均有A、T、C和G四种选择，则条形码区域能够形成6⁴=1296种组合，从而实现对于不同单链接头以及后续目标片段的标记和区分。

上述单链接头中的测序接头区域包括但不限于如二代测序建库接头P7或P5等用于建库的序列。利用上述测序接头区域，能够实现对于PCR文库的扩增、上机测序等操作。

上述单链接头预连接方法包括分步进行的方法，即先利用TdT获得延伸DNA后，再将延伸DNA和夹板、单链接头混合，单链接头和延伸DNA均通过碱基互补配对与夹板结合，最后利用DNA连接酶修复缺刻，获得单链接头预连接DNA。也可以进行一步反应，即在利用TdT延伸样本DNA的同时，反应体系中同时包括样本DNA和夹板、单链接头、DNA连接酶，a）样本DNA延伸、b）夹板互补配对、c）缺刻修复在同一步骤中进行，也能够实现上述单链接头的预连接。

在上述单链接头预连接方法中，通过延伸DNA，形成单链结构，结合夹板结构，对不同形式的DNA(单链、双链及杂合等结构)进行单链接头预连接。单链接头中包含了条形码区域，条形码可以识别不同的样本，因而标记后的不同样本可以混合一起进行后续的建库工作，能够提高建库通量和效率，减少建库成本和周期。

在一种优选的实施例中，在单链接头的夹板互补区域和条形码区域之间还包括唯一标识符区域（UMI）；优选地，测序接头区域的3'端含有3'封闭修饰。

测序接头区域的3'端的3'封闭修饰，能够防止反应中末端转移酶对单链接头的3'端进行延伸形成外延结构，导致该外延结构也与夹板和单链接头结合，增加体系中夹板和单链接头的用量，也形成额外的双链结构，影响获得的单链接头预连接DNA的纯度。

在一种优选的实施例中，目标片段结合区包括（AAAA）_n、（CCCC）_n、（GGGG）_n、（TTTT）_n、（RRRR）_n、（YYYY）_n、（KKKK）_n、（MMMM）_n、（SSSS）_n、（WWWW）_n、（BBBB）_n、（DDDD）_n、（HHHH）_n、（VVVV）_n或（NNNN）_n，其中n表示碱基个数，n为4-8中任意整数，n包括4、5、6、7或8，更优选n为6；大写字母表示不同脱氧核苷酸碱基类型或组合，其中A：腺嘌呤；T：胸腺嘧啶；C：胞嘧啶；G：鸟嘌呤；Y：胞嘧啶或胸腺嘧啶；R：腺嘌呤或鸟嘌呤；M：腺嘌呤或胞嘧啶；K：鸟嘌呤或胸腺嘧啶；W：腺嘌呤或胸腺嘧啶；S：胞嘧啶或鸟嘌呤；V：腺嘌呤、胞嘧啶或鸟嘌呤；H：腺嘌呤、胞嘧啶或胸腺嘧啶；D：腺嘌呤、鸟嘌呤或胸腺嘧啶；B：胞嘧啶、鸟嘌呤或胸腺嘧啶；N：腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶。

在本申请中，字母表示特定脱氧核苷酸碱基类型或类型的组合。M表示A或C，R表示A或G，W表示A或T，S表示C或G，Y表示C或T，K表示G或T，V表示A、C或G，H表示A、C或T，D表示A、G或T，B表示C、G或T，N表示A、C、G或T。

在上述单链接头中设置UMI，能够在后续测序的过程中进行错误校正，提高测序准确性，也能够在后续的测序中实现定量的效果。

在一种优选的实施例中，单链接头预连接方法包括：在单链接头连接时，连接体系中含有聚乙二醇；优选地，聚乙二醇包括PEG2000、PEG4000、PEG6000或PEG8000中的一种或多种；优选地，聚乙二醇在连接体系中的质量浓度为5%-30%。

在一种优选的实施例中，a）、b）和c）能够分步或同时进行，获得单链接头预连接DNA。

在一种优选的实施例中，单链接头预连接方法包括：将样本DNA、夹板、DNA连接酶和单链接头混合于T4 RNA连接酶缓冲液或T4 DNA连接酶缓冲液中，形成连接体系。

上述DNA连接酶能够催化目标片段的3'端和单链接头的5'端以磷酸二酯键相连接，从而实现将单链接头连接在目标片段上。在上述连接缓冲液中，通过夹板辅助，DNA连接酶能够更好地将单链接头连接到目标片段的3'端。上述聚乙二醇能够进一步地提高连接效率。

在一种优选的实施例中，脱氧核糖核苷酸三磷酸包括脱氧腺苷5'-三磷酸（dATP）、脱氧鸟苷5'-三磷酸（dGTP）、脱氧胞苷5'-三磷酸（dCTP）和脱氧胸腺苷5'-三磷酸（dTTP）其中的一种、两种、三种或四种，在单链接头预连接方法中，末端转移酶催化各脱氧核糖核苷酸三磷酸结合至样本DNA的3'端羟基，各脱氧核糖核苷酸三磷酸依次结合形成单链DNA结构；优选为脱氧鸟苷5'-三磷酸（dGTP）。

在上述单链DNA结构中，不同碱基脱氧核苷酸类型延伸对单链接头预连接效率存在一定的影响，综合不同底物效果，优选dGTP对底物进行延伸，能够获得更好的单链接头连接效率。

在一种优选的实施例中，样本DNA包括双链DNA、单链DNA或DNA-RNA杂合链。

在本申请第二种典型的实施方式中，提供了高通量二代测序文库的建库方法，该建库方法包括：利用上述单链接头预连接方法获得单链接头预连接DNA；利用能够与单链接头特异性结合的引物对单链接头预连接DNA进行扩增，得到连接3'端接头的双链DNA产物；对连接3'端接头的双链DNA产物进行5'端接头连接，得到双端接头产物；对双端接头产物进行扩增，获得高通量二代测序文库。

在单链接头预连接DNA中，含有单链接头的测序接头区域，该测序接头区域包括但不限于如二代测序建库接头P7或P5等illumina测序平台的建库用序列。利用能够与此测序接头区域特异性结合的引物，能够以单链接头预连接DNA为底物，扩增获得用于高通量测序的文库。需要说明的是，此处的测序接头区域的序列根据不同测序平台的不同（比如Illumina测序平台或MGI测序平台），具体序列也有所不同。

在一种优选的实施例中，当样本DNA为基因组DNA中的R-loop时，建库方法包括：片段化处理不同样本的基因组DNA，获得各基因组对应的片段化DNA；利用单链接头预连接方法，将携带不同条形码区域的单链接头分别与各基因组对应的片段化DNA连接，获得不同的单链接头预连接DNA；混合不同的单链接头预连接DNA，进行免疫共沉淀，获得单链接头连接R-loop DNA，单链接头连接R-loop DNA为来源于R-loop的、连接有单链接头的DNA-RNA杂合链；利用能够与单链接头特异性结合的引物，对单链接头连接R-loop DNA进行扩增，获得R-loop的测序文库。

现有技术中对于R-loop进行建库的技术都存在一个共同的缺点：每个样本需要单独进行免疫共沉淀捕获DNA-RNA杂合链，导致建库通量有限、操作时间长及建库成本高等不足。在上述建库方法中，基于上述单链接头预连接技术，构建mDRIP-seq高通量测序技术流程，对多个不同的样本进行标记，以实现多样本同步免疫共沉淀和文库构建，可应用于高通量R-loop图谱的绘制，从而实现对于多种生物全基因组R-loop图谱的高通量绘制。

在一种优选的实施例中，当所述样本DNA为细胞的染色质中靶向蛋白的DNA时，建库方法包括：片段化处理不同的染色质，获得各染色质对应的片段化DNA；利用单链接头预连接方法，将携带不同条形码区域的单链接头分别与各染色质对应的片段化DNA连接，获得不同的单链接头预连接DNA；混合不同的单链接头预连接DNA，利用抗体进行免疫共沉淀，获得获得单链接头连接靶向DNA，单链接头连接靶向DNA为连接有单链接头的靶向蛋白的DNA，利用能够与单链接头特异性结合的引物，对单链接头连接靶向DNA进行扩增，获得靶向蛋白的DNA的测序文库；优选地，不同的染色质通过如下方法获得：利用交联剂固定不同的细胞，对固定的细胞进行裂解，获得不同的染色质；优选地，交联剂包括甲醛；优选地，裂解包括利用化学裂解、机械裂解或酶裂解等方法细胞进行裂解。

现有技术ChIP-seq（chromatin immunoprecipitation followed by high-throughput DNA sequencing）是将染色质免疫共沉淀与二代测序技术相结合所形成的一种高通量测序技术，先通过免疫共沉淀富集靶向蛋白结合的DNA，再对富集的DNA进行建库测序，步骤较为繁琐，建库周期长，通量有限，样品投入需求量较大（约1×10⁷细胞），一定程度上限制了该技术的应用。而现有技术中对于ChIP-seq进行的改进也均存在各种不足，包括但不限于常规的ChIP-seq方法需要对每个样本进行免疫共沉淀再分别建库，通量有限，建库繁琐耗时；以双链DNA为建库对象，而交联样本一般涉及高温解交联步骤，易引起双链DNA变性，降低建库覆盖度。而利用上述建库方法，能够对染色质DNA进行条形码预连接，多个样本可以混合一起进行免疫共沉淀，提高建库通量；也能够利用单链建库策略，提高建库覆盖度。

在本申请第三种典型的实施方式中，提供了一种单链接头试剂盒，该单链接头试剂盒包括单链接头、夹板和末端转移酶（TdT）；单链接头从5'端至3'端依次包括：夹板互补区域、条形码区域和测序接头区域；条形码区域为4-12个碱基的组合；夹板包括5'端的单链接头结合区和3'端的目标片段结合区；单链接头结合区能够和夹板互补区域进行特异性结合；目标片段结合区能够和待连接的目标片段进行特异性结合，从而将夹板与目标片段连接。

上述夹板的5'端为单链接头结合区，该单链接头结合区的序列能够和单链接头的夹板互补区域进行碱基互补配对；夹板的3'端为目标片段结合区，该目标片段结合区能够和后续待连接的目标片段进行碱基互补配对。通过上述碱基互补配对，能够利用形成单链接头-夹板-目标片段的连接体，目标片段的3'端和单链接头的5'端在夹板的作用下相邻。

上述单链接头中的条形码区域包括但不限于4个、6个、8个、10个或更多碱基序列的组合，利用不同碱基。如条形码区域为6个碱基的组合，每个碱基均有A、T、C和G四种选择，则条形码区域能够形成6⁴=1296种组合，从而实现对于不同单链接头以及后续目标片段的标记和区分。

上述TdT能够催化脱氧核糖核苷酸三磷酸结合到DNA的3'端羟基，且末端转移酶具有不依赖模板的特征，可以确保DNA的完整性。对DNA 3'端进行延伸形成外延的单链DNA结构（3'overhang）的方法，不改变原有DNA单链、双链或DNA-RNA杂合链的形态的结构，而外延的单链DNA结构可以进行单链接头的预连接。

在上述单链接头中设置UMI，能够减少建库扩增引起的偏向性，在后续测序的过程中进行错误校正，也能够在后续的测序中实现定量的效果，提高测序和定量的准确性。

在一种优选的实施例中，单链接头试剂盒还包括连接缓冲液，连接缓冲液中含有DNA连接酶和/或聚乙二醇；优选地，聚乙二醇包括PEG2000、PEG4000、PEG6000或PEG8000中的一种或多种；优选地，聚乙二醇的质量浓度为5%-30%；优选地，连接缓冲液包括T4 RNA连接酶缓冲液或T4 DNA连接酶缓冲液。

在一种优选的实施例中，目标片段结合区包括（AAAA）_n、（CCCC）_n、（GGGG）_n、（TTTT）_n、（RRRR）_n、（YYYY）_n、（KKKK）_n、（MMMM）_n、（SSSS）_n、（WWWW）_n、（BBBB）_n、（DDDD）_n、（HHHH）_n、（VVVV）_n或（NNNN）_n，其中n表示碱基个数，n为4-8中任意整数，优选n为6；大写字母表示不同脱氧核苷酸碱基类型或组合，其中A：腺嘌呤；T：胸腺嘧啶；C：胞嘧啶；G：鸟嘌呤；Y：胞嘧啶或胸腺嘧啶；R：腺嘌呤或鸟嘌呤；M：腺嘌呤或胞嘧啶；K：鸟嘌呤或胸腺嘧啶；W：腺嘌呤或胸腺嘧啶；V：腺嘌呤、胞嘧啶或鸟嘌呤；H：腺嘌呤、胞嘧啶或胸腺嘧啶；D：腺嘌呤、鸟嘌呤或胸腺嘧啶；B：胞嘧啶、鸟嘌呤或胸腺嘧啶；S：胞嘧啶或鸟嘌呤；N：腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶。

下面将结合具体的实施例来进一步详细解释本申请的有益效果。

实施例1.单链接头的结构

单链接头的5'端为夹板互补区域，能够与夹板（splint）的5'端部分序列互补。夹板互补区域的3'端包含条形码区域（barocode）和测序接头区域（建库接头，如二代测序建库接P7或P5等序列）。在夹板互补区域和条形码区域之间还可包括唯一标识符区域（uniquemolecular identifiers, UMI），测序接头区域的3'端可通过修饰进行封闭。单链接头的示意图如图1所示。

实施例2.夹板的结构

夹板的3'端依据连接样本DNA3'端延伸形成的单链DNA结构的碱基类型设计相应的互补碱基序列，A、T、C、G四种碱基可形成15种不同碱基类型的splint序列（如图2中A所述）。

夹板的5'端碱基和单链接头的5'端互补，在退火条件下可形成部分互补的接头/夹板结构（如图2中B所示）。

实施例3.基于样本DNA的3'延伸和夹板，构建单链接头预连接

单链DNA（ssDNA）、双链DNA（dsDNA）或DNA-RNA杂合链作为样本DNA，在末端转移酶TdT催化作用下，样本DNA 3'端延伸形成单链DNA结构。在连接反应体系中，夹板的3'端单链DNA和样本DNA的3'端延伸所形成的单链DNA结构互补。在DNA连接酶的催化作用下，单链接头5'端连接到底物3'端，实现对多种形态DNA的单链接头预连接（如图3所示）。

实施例4.基于单链接头预连接的技术建库流程

基于单链接头预连接构建DNA文库，主要包括四个步骤：

（1）基于上述单链接头预连接的结构，在片段化的单链DNA（ssDNA）、双链DNA（dsDNA）或DNA-RNA杂合链中DNA 3'端上，连接携带条形码序列的单链接头（第一接头），获得连接DNA；

（2）利用第一接头反向引物对连接DNA进行延伸；

（3）延伸产物连接第二接头；

（4）文库进行扩增。

上述建库流程如图4所示。

实施例5.DNA-RNA杂合链的体外合成

主要材料和试剂

模板DNA（核苷酸1，SEQ ID NO：1）：

TAATACGACTCACTATAGGGGAATTGTGAGCGGATAACAATTCCCCTCTAGAAATAATTTTGTTTAACTTTAAGAAGGAGATATACCATGGGCAGCAGCCATCATCATCATCATCACAGCAGCGGCCTGGTGCCGCGCGGCAGCCATATGGCTAGCATGACTGGTGGACAGCAAATGGGTCGCGGATCCATGAGCTCACTGGCTCCGTGGCGTACGACGAGCTGGAGTCCGCTGGGCTCTCCGCCAAGTTTAGAGGATGCTTTGCG；

模板正向引物（寡核苷酸1，SEQ ID NO：2）：TAATACGACTCACTATAGGGGAA；

模板反向引物（寡核苷酸2，SEQ ID NO：3）：CGCAAAGCATCCTCTAAACT；

T7 RNA Polymerase（T7 RNA聚合酶，Beyotime, Cat: D7069）；

RNase Inhibitor（核糖核酸酶抑制剂，Beyotime, Cat:R0102-10kU）；

ProtoScript® II Reverse Transcriptase（ProtoScript® II 逆转录酶，NEB,Cat: M0368L）；

Mung Bean Nuclease（绿豆核酸酶，NEB, Cat: M0250）；

RNase H（NEB, Cat: M0297S）；

DNaseI（Thermo Fisher Scientific, Cat: EN0521）；

NTP 混合物（Thermo Fisher Scientific, Cat: 18109017）；

dNTP混合物（Thermo Fisher Scientific, Cat: R0191）；

Qubit RNA HS检测试剂盒（Thermo Fisher Scientific, Cat: Q32852）。

方法

DNA-RNA体外合成流程如图5中A所示。

（1）RNA体外转录

常规分子PCR扩增DNA模板，胶回收纯化。纯化的DNA用于RNA的体外转录。

20 μL反应体系中，包含1× T7 Reaction Buffer（T7反应缓冲液）、2 mM NTP（每种0.5 mM）、200 ng模板DNA PCR产物、100 U T7 RNA Polymerase，混匀后37℃孵育2个小时；随后加入80 μL无酶水（Nuclease-free Water）和2 μL DNaseI，混匀后37℃孵育15分钟；苯酚氯仿抽提后乙醇沉淀干燥；溶于50 μL Nuclease-free Water，Qubit RNA HS检测试剂盒检测体外转录RNA浓度。

（2）DNA-RNA杂合链的合成

50 μL反应体系中，包含1× ProtoScript II buffer、0.01 M DTT、dNTP（每种0.5mM）、5 µM逆转录引物（寡核苷酸1）、2 U/μL RNase Inhibitor、20 U ProtoScript IIReverse Transcriptase和500 ng步骤（1）体外转录的RNA模板，42℃孵育1小时，苯酚氯仿抽提后乙醇沉淀干燥；溶于43 μL Nuclease-free Water，加入5 μL 10 × Mung BeanNuclease Reaction Buffer和2 μL Mung Bean Nuclease，30℃消化1小时去除残留未形成杂合链的RNA，苯酚氯仿抽提后乙醇沉淀干燥，获得DNA-RNA杂合链产物。

（3）DNA-RNA杂合链检测

琼脂糖凝胶电泳和RNaseH处理检测DNA-RNA杂合链结构的完整性；构建文库测序，检测所合成杂合链结构的链特异性。

结果

琼脂糖凝胶电泳和RNaseH处理结果显示，合成的DNA-RNA杂合链条带单一，并且能够被RNaseH所消化（如图5中B所示）。测序结果显示，所合成的DNA-RNA杂合链具有明显的链特异性（如图5中C所示）。本实施例所合成的DNA-RNA杂合链可进一步用于研究单链接头预连接技术对DNA-RNA杂合链的标记效果。

实施例6.TdT对单链DNA、双链DNA及DNA-RNA杂合链的DNA3'端的延伸

主要材料和试剂

单链DNA（核苷酸2，SEQ ID NO：4）：

AGTCTTCGAGTCCATCGCGTTAGCTCAGTGACATTGCCTAGTCTAGCGTACGTACGATCGGAAGAGCACACGTCTGAACTCCAGTCAC（合成公司：金唯智生物科技有限公司）；

双链DNA：核苷酸1的PCR纯化产物；

DNA-RNA杂合链利用核苷酸1按照实施例5体外合成；

Terminal Deoxynucleotidyl Transferase（末端转移酶，TdT，Beyotime, Cat:D7095M）；

dATP（Takara, Cat:4026Q）；dGTP（Takara, Cat:4027Q）；dCTP（Takara, Cat:4028Q）；dTTP（Takara, Cat:4029Q）；

T4 RNA Ligase Reaction Buffer（T4 RNA连接酶反应缓冲液，NEB, Cat:B0216L）。

方法

20 μL反应体系中，包含1× T4 RNA Ligase Reaction Buffer或1× ReactionBuffer（含1 mM CoCl₂）、TdT（20 U）、dATP、dCTP、dGTP、dTTP中的一种或组合（10 μmol）、底物（单链DNA、双链DNA或DNA-RNA杂合链，10 pmol），混匀后37℃孵育。

结果

TdT是否能够对DNA:RNA杂合链中的DNA3'端进行延伸目前未见相关报道。本实施例表明TdT不仅可对单链DNA和双链DNA3'端进行延伸，也能够对DNA:RNA杂合链进行延伸，可通过底物与脱氧核苷三磷酸的摩尔比、二价离子的类型及孵育时间可控制3'端延伸长度。试验结果如图6所示，其中A为单链DNA底物；B为DNA-RNA杂合链底物；C为双链DNA底物；D为DNA-RNA杂合链底物（1 mM CoCl₂反应体系）；E为双链DNA底物（1 mM CoCl₂反应体系）。

实施例7. 延伸、连接分步反应和一管式反应显示相当的连接效果

主要材料和试剂

单链DNA（核苷酸2，SEQ ID NO：4）：

双链DNA：核苷酸1的PCR纯化产物；

DNA-RNA杂合链利用核苷酸1按照实施例5体外合成；

单链接头（寡核苷酸3，SEQ ID NO：5）：5'-p-CAGCGATCGACGCTAAGATCGGAAGAGCACACGTCTGAACTCCAGTCA/ddC/-3', 其中5'-p表示5'磷酸基团修饰，/ddC/表示/双脱氧胞嘧啶核苷；

splintR（寡核苷酸4，SEQ ID NO：6）：5'SpacerC12-GTCGATCGCTGRRRRRR-NH₂C₆-3'，5'端SpacerC12修饰，3'端NH₂C₆修饰，R简并碱基A/G（图2A）；

Terminal Deoxynucleotidyl Transferase（Beyotime, Cat: D7095M）；

T4 DNA ligase（T4 DNA连接酶，Thermo Fisher Scientific, Cat:EL0011）；

dNTP Mix（10 mM each）（Thermo Fisher Scientific, Cat:R0191）；

PEG8000（50%, RNase free）（Beyotime, Cat: R0056-2ml）；

T4 RNA Ligase Reaction Buffer（NEB, Cat:B0216L）；

接头/splintR混合物: 单链接头和splintR混匀，使终浓度分别为10 μM和20μM，95℃变性2 min，0.1℃/s退火至4℃，-20℃保存备用；

dCTP（Takara, Cat:4028Q）；dTTP（Takara, Cat:4029Q）；

ATP（Thermo Fisher Scientific, Cat:R0441）。

方法

（1）分步反应

a. 20 μL反应体系中，包含1× T4 RNA Ligase Reaction Buffer、TdT（20 U）、dCTP、和dTTP组合（各5 μmol）、底物（单链DNA、双链DNA或DNA-RNA杂合链，10 pmol），混匀后37℃孵育20 min；

b. 20 μL体系中，包含1× T4 RNA Ligase Reaction Buffer、2 mM ATP、5%PEG8000、0.5/1 μM接头/splintR混合物、10 Weiss U T4 DNA ligase，混匀后加入第一步3'延伸反应体系中，37℃继续孵育40 min，95℃孵育2 min。

（2）一管式反应

40 μL反应体系中，包含1× T4 RNA Ligase Reaction Buffer、底物DNA、TdT、dCTP和dTTP组合（各5 μmol）、底物（单链DNA、双链DNA或DNA-RNA杂合链，10 pmol）、2 mMATP、5% PEG8000、0.5/1 μM接头/splint混合物、10 Weiss U T4 DNA ligase，混匀后37℃孵育10 min。

结果：

本实施例结果表明，单链接头连接到单链DNA、双链DNA或杂合链中的DNA，分步反应和一管式反应显示了相当的连接效果。在操作方面，相较于分步反应，一管式反应操作上更为简便。连接效果电泳图如图7所示，其中，图7中A为单链DNA底物；B为双链DNA底物；C为DNA-RNA杂合链底物；泳道1为无酶对照；泳道2为分步反应连接产物；泳道3为一管式反应产物。

实施例8. 不同碱基脱氧核苷酸类型延伸形成的单链DNA结构对单链接头预连接效率的影响

主要材料和试剂

单链DNA（核苷酸2，SEQ ID NO：4）：

双链DNA：核苷酸1的PCR纯化产物；

DNA-RNA杂合链利用核苷酸1按照实施例5体外合成；

单链接头（寡核苷酸5，SEQ ID NO：7）:

5'-p-CAGCGATCGACNNNNAGATCGGAAGAGCACACGTCTGAACTCCAGTCA/ddC/-3', 其中5'-p表示5'磷酸基团修饰，/ddC/表示/双脱氧胞嘧啶核苷，NNNN表示条形码序列，四种碱基可组合成256种条形码，碱基不重复条件下可组合24种条形码；

splint（寡核苷酸6，SEQ ID NO：8）:

5'SpacerC12-GTCGATCGCTGNNNNNN-NH₂C₆-3'，5'端SpacerC12修饰，3'端NH₂C₆修饰，NNNNNN表示特定的碱基或碱基组合（图2A）；

Terminal Deoxynucleotidyl Transferase（Beyotime, Cat: D7095M）；

T4 DNA ligase（Thermo Fisher Scientific, Cat:EL0011）；

dATP（Takara, Cat:4026Q）；dGTP（Takara, Cat:4027Q）；dCTP（Takara, Cat:4028Q）；dTTP（Takara, Cat:4029Q）；ATP（Thermo Fisher Scientific,Cat:R0441）；

PEG8000（50%, RNase free）（Beyotime, Cat: R0056-2ml）；

T4 RNA Ligase Reaction Buffer（NEB, Cat:B0216L）；

接头/splint混合物:接头和splint混匀，使终浓度分别为10 μM和20 μM，95℃变性2 min，0.1℃/s退火至4℃，-20℃保存。

方法

（1）单链接头预连接

40 μL反应体系中，包含1× T4 RNA Ligase Reaction Buffer、TdT、dATP、dCTP、dGTP、dTTP中的一种或不同碱基组合（总10 μmol）、底物（单链DNA、双链DNA或DNA-RNA杂合链，10 pmol）、2 mM ATP、7.5% PEG8000、0.5/1 μM接头/splint混合物、10 Weiss U T4 DNAligase，混匀后37℃孵育10 min。

（2）建库测序及分析

混合相同体积不同碱基类型延伸连接产物，进行文库构建，上机测序。测序数据通过单链接头所包含的条形码序列进行拆分，根据测序reads（读段）数计算相对连接效率。

结果

结果显示，不同碱基脱氧核苷酸类型延伸形成的单链DNA结构对单链接头预连接效率存在一定的影响，试验结果如图8所示。底物为单链DNA时，G、C、R脱氧核苷酸类型3'端延伸连接效率要高于其他的碱基类型（图8中A和B）。底物为双链DNA时，G、A、C、M脱氧核苷酸类型3'端延伸连接效率高于其他碱基类型（图8中C和D）。底物为DNA-RNA杂合链时，G和C脱氧核苷酸类型3'端延伸的连接效率明显高于其他碱基类型（图8中E和F）。本实施例表明不同碱基脱氧核苷酸类型延伸对单链接头预连接效率存在一定的影响，综合不同底物效果，可优选G对底物进行延伸。图8中A中的“WO”表示没有进行延伸反应（Nsplint withoutTdT）。

实施例9. 不同浓度和分子量PEG对单链接头预连接效率的影响

主要材料和试剂

单链DNA（核苷酸2，SEQ ID NO：4）：

双链DNA：核苷酸1的PCR纯化产物；

DNA-RNA杂合链利用核苷酸1按照实施例5体外合成；

单链接头（寡核苷酸5，SEQ ID NO：7）:

splintC（寡核苷酸7，SEQ ID NO：9）: 5'SpacerC12-GTCGATCGCTCCCCCC- NH₂C₆-3'，5'端SpacerC12修饰，3'端NH₂C₆修饰；

T4 DNA ligase（Thermo Fisher Scientific, Cat:EL0011）；

dGTP（Takara, Cat:4027Q）；

ATP（Thermo Fisher Scientific,Cat:R0441）；

PEG8000（50%, RNase free）（Beyotime, Cat: R0056-2ml）；

PEG4000（Thermo Fisher Scientific, Cat:EL0011）；

PEG6000（Solarbio, Cat: P8280-500g）

PEG20000（Solarbio, Cat: P8280-500g）

T4 RNA Ligase Reaction Buffer（NEB, Cat:B0216L）；

接头/splintC混合物:接头和splintC混匀，终浓度分别为10 μM和20 μM，95℃变性2 min，0.1℃/s退火至4℃，-20℃保存。

方法

40 μL反应体系中，包含1× T4 RNA Ligase Reaction Buffer、dGTP（10 μmol）、底物（单链DNA、双链DNA或DNA-RNA杂合链, 10 pmol）、2 mM ATP、5% PEG8000、0.5/1 μM接头/splint混合物、10 Weiss U T4 DNA ligase，混匀后37℃孵育10 min。在该体系下，改变PEG的含量或分子量分析不同浓度及分子量PEG对单链接头预连接效率的影响。

结果

结果显示，PEG浓度在5%或以上含量时，连接效率明显提高；在5%浓度条件下，不同的PEG类型（PEG20000、PEG8000、PEG6000以及PEG4000）均显示了高效的双链DNA连接效率，试验结果如图9中A所示。同时，在7.5% PEG及以上浓度条件下，该反应体系对单链DNA和DNA-RNA杂合链均显示了高效的连接效果，试验结果如图9中B和C所示。

实施例10. 基于单链接头预连接构建HD-seq应用于DNA:RNA杂合链文库的构建

主要材料和试剂

人细胞系HEK293T；

单链接头（寡核苷酸5，SEQ ID NO：7）:5'-p-CAGCGATCGACNNNNAGATCGGAAGAGCACACGTCTGAACTCCAGTCA/ddC/-3', 其中5'-p表示5'磷酸基团修饰，/ddC/表示/双脱氧胞嘧啶核苷，NNNN表示条形码序列，四种碱基可组合成256种条形码，碱基不重复条件下可组合24种条形码；

splintC（寡核苷酸7，SEQ ID NO：9）: 5'SpacerC12-GTCGATCGCTCCCCCC- NH₂C₆-3'，5'端SpacerC12修饰，3'端NH₂C₆修饰（图2A）；

T4 DNA ligase（Thermo Fisher Scientific, Cat:EL0011）；

dGTP（Takara, Cat:4027Q）；

ATP（Thermo Fisher Scientific,Cat:R0441）；

PEG8000（50%, RNase free）（Beyotime, Cat: R0056-2ml）；

T4 RNA Ligase Reaction Buffer（NEB, Cat:B0216L）；

Penicillin-Streptomycin（10,000 U/mL）（Thermo Fisher Scientific, Cat:15140122）；

TrypLE™ Express Enzyme（1X）, phenol red（Thermo Fisher Scientific,Cat:12605010）；

TRIzol™ Reagent（Thermo Fisher Scientific, Cat:15596026）；

DNase I（Thermo Fisher Scientific, Cat:EN0521）；

接头/splintC混合物:接头和splintC混匀，终浓度分别为10 μM和20 μM，95℃变性2 min，0.1℃/s退火至4℃，-20℃保存备用。

方法

（1）细胞培养

HEK293T培养基为含10% FBS和Penicillin-Streptomycin（10,000 U/mL）的DMEM培养基，5%CO₂培养箱培养至80%左右汇合度时，TrypLE™ Express Enzyme消化收集细胞进行传代或冻存。

（2）总RNA的提取

HEK293T培养至80%汇合度时，TRIzol™ Reagent按照说明书进行总RNA的提取。

（3）cDNA杂合链的合成

DNase I 37℃消化总RNA30min去除潜在的基因组DNA的污染；ProtoScript® IIReverse Transcriptase和d（T）23VN 引物按照说明书进行逆转录；30℃条件下，MBN 对逆转录产物消化30 min，去除剩余的引物和残余的单链RNA；苯酚氯仿进行抽屉纯化，获得RNA:cDNA杂合链产物。

（4）RNA-seq建库

ME220（Covaris, 70 W, 20% Duty factor, 1000 cycles per burst, 130 s,at 4°C）对合成的RNA:cDNA杂合链进行超声片段化，使主要片段大小分布在250 bp左右，95℃变性2min，立即置于冰上2min，Accel-NGS® 1S Plus DNA Library Kit（SwiftBiosciences）试剂盒按照使用说明书进行文库的构建。

（5）RNA:cDNA杂合链HD-seq文库构建

ME220（Covaris, 70 W, 20% Duty factor, 1000 cycles per burst, 130 s,at 4°C）对合成的RNA:cDNA杂合链进行超声片段化，使主要片段大小分布在250bp左右，不进行变性处理，按照前述接头预连接体系和文库构建流程进行文库的构建，制备HD-seq文库。

结果

上述HD-seq方法只需要合成第一链cDNA，无需进行cDNA的第二链合成，而目前的常规RNA-seq（主要是基于双链DNA的建库方法），需要合成cDNA的第二链，形成双链结构才能进行下游建库操作。

基因表达分析显示，HD-seq和RNA-seq检测到的表达基因数具有很好的一致性（如图10中A和B所示），基因的表达水平HD-seq和RNA-seq也呈现了非常好的相关性（不低于0.97）（如图10中C所示）。本实施例结果表明，基于单链接头预连接构建的HD-seq，在保持DNA:RNA杂合链结构完整性的情况下，仍能对杂链中的DNA进行高效接头预连接，可实现对DNA:RNA杂合链进行标记和建库。

实施例11.mDRIP-seq应用于基因组水平R-loop图谱的高通量绘制示意图

背景

R-loop是基因组中一种特殊的染色质结构，由一条DNA:RNA互补杂合链和另一条未配对的DNA单链所构成，广泛存在于各个物种的基因组中，参与DNA损伤修复、基因表达调控、端粒稳定性、B细胞受体重排、线粒体DNA复制等生物学过程^[1]。

为从基因组水平研究R-loop，已有大量R-loop测序技术被开发出来（如表1所示）。这些技术主要依赖于DNA-RNA杂合链亲和蛋白S9.6抗体（以下表1中简称S9.6）或无酶活RNase H突变体（以下表1中简称RNase H），捕获R-loop中的杂合链进行建库。DRIP-seq是最先报道的R-loop高通量测序技术，通过限制性内切酶组合对DNA进行片段化，利用S9.6抗体对R-loop或DNA-RNA杂合链结构进行富集建库

。然而，由于该技术分辨率低、所需样本量大、无法提供R-loop链特异性信息等问题，一定程度上限制了其应用。针对DRIP-seq的不足，研究者开发了诸如DRIPc-seq/>

、ssDRIP-seq/>

、R-ChIP/>

等方法，对RNA或ssDNA进行建库，或对片段化方法进行改进，如S1酶消化、超声处理等，增加链特异性信息，提升检测分辨率和灵敏度。

表 1.主要R-loop测序技术概览

这些技术在过去十年间的建立和发展，促进了我们对R-loop生物学特征和功能的认识。然而，这些技术存在一个共同的缺点：每个样本需要单独进行免疫共沉淀捕获DNA-RNA杂合链，导致建库通量有限、操作时间长及建库成本高等不足。

mDRIP-seq流程

基于现有方法的局限性，本实施例基于前述单链接头预连接技术，构建mDRIP-seq高通量测序技术流程，对多样本进行标记，以实现多样本同步免疫共沉淀和文库构建，可应用于高通量R-loop图谱的绘制。mDRIP-seq基本流程主要包括六个步骤（如图11或图12所示）：

（1）提取各个样本的基因组DNA，进行片段化处理；

（2）基于单链接头预连接技术，将携带不同条形码序列的第一接头分布连接到各个样本已片段化DNA中进行标记；

（3）混合所有标记的样本进行免疫共沉淀，捕获基因组中的DNA:RNA杂链；

（4）捕获的杂合链按照前述反向引物扩展、连接第二接头及文库扩增的方法完成测序文库的构建；

（5）上机测序；

（6）通过条形码序列进行拆分，对各个样本进行生物信息学分析。

实施例12. mDRIP-seq应用于基因组水平R-loop检测

主要材料和试剂

人细胞系HEK293T，小鼠细胞系NIH/3T3，大肠杆菌菌株K12，酵母菌株BY4741，拟南芥Col-0 14天幼苗，水稻9311 21天幼苗；

splintC（寡核苷酸7，SEQ ID NO：9）:5'SpacerC12-GTCGATCGCTCCCCCC- NH₂C₆-3'，5'端SpacerC12修饰，3'端NH₂C₆修饰（图2A）；

T4 DNA ligase（Thermo Fisher Scientific, Cat:EL0011）；

dGTP（Takara, Cat:4027Q）；

ATP（Thermo Fisher Scientific,Cat:R0441）；

PEG8000（50%, RNase free）（Beyotime, Cat: R0056-2ml）；

T4 RNA Ligase Reaction Buffer（NEB, Cat:B0216L）；

Penicillin-Streptomycin（10,000 U/mL）（Thermo Fisher Scientific, Cat:15140122）

TrypLE™ Express Enzyme（1X）, phenol red（Thermo Fisher Scientific,Cat:12605010）

Dynabeads™ Protein G（Thermo Fisher Scientific, Cat:10004D）

方法

（1）基因组DNA的提取

根据ssDRIP-seq实验流程进行gDNA的提取

。

（2）ssDRIP-seq文库的构建

ssDRIP-seq按照

报道的流程进行文库的构建。ME220（Covaris, 70 W, 20%Duty factor, 1000 cycles per burst, 130 s, 4℃）对gDNA片段，超声片段化的gDNA和抗体S9.6进行DRIP，提取的核酸直接按照Accel-NGS® 1S Plus DNA Library Kit（SwiftBiosciences）文库的构建。

（3）mDRIP-seq文库的构建

对于mDRIP-seq文库的构建，首先需要基于前述单链接头预连接技术，对每个样本进行接头预连接，从而对样本进行标记。标记后的每个样本加入2 μL 0.5M的EDTA终止反应，随后合并标记的样本并进行苯酚氯仿抽提纯化DNA。纯化的DNA溶于TE中按照ssDRIP-seq方法和S9.6进行免疫共沉淀，富集R-loop中DNA:RNA杂合链。纯化的DNA:RNA杂合链按照前述单链接头预连建库流程进行第一接头反向引物对连接产物进行延伸、延伸产物连接第二接头和文库进行扩增，完成文库的构建。

（4）数据分析和处理

ssDRIP-seq数据使用Bowtie 2（version 2.2.5）

软件进行基因组比对（大肠杆菌参考基因组为BW25113，酵母样本参考基因组为sacCer3，人参考基因组为GRCh38, 小鼠参考基因组为mm10，拟南芥参考基因组为TAIR10,水稻参考基因组为MSU version 7.0）；Picard tools（/>

）去除重复；为了获得链特异性的BAM文件，samtools/>

进行链拆分；MACS2/>

对富集区域进行峰的鉴定。

对于mDRIP-seq数据，fastq-multx（version1.4.2）（https://github.com/brwnj/fastq-multx）依据read2的5'端标签序列信息进行数据的拆分，随后每个样本按照ssDRIP-seq相同的流程进行分析。

数据可视化方面，deepTools（version 3.5.1）

中的bamCoverage将BAM文件转化为bigWig文件，该文件导入Integrative Genomics Viewer（IGV）/>

获得相应的快照图（snapshots）。

结果

为了验证mDRIP-seq对基因组水平R-loop检测的可靠性，我们对人细胞系HEK293T和小鼠细胞系NIH/3T3预接接头标记后混合一起进行mDRIP-seq建库，同时以传统的ssDRIP-seq进行参考比较。结果显示，mDRIP-seq检测到的R-loops富集在重复样本间显示了很好的相关性，并且和传统方法ssDRIP-seq也显示了很高的相关性（图13中A-F），同时人源细胞系和鼠源细胞系间的数据也显示较明显的交叉污染（图13中G）。和ssDRIP-seq本次所测数据及已报道的数据相一致

，mDRIP-seq检测到的R-loop峰的大小在200-2,000 bp之间（图14中A）,大部分R-loops分布于基因体（gene body）和基因间区域（intergenicregions）（图14中B），并且显示了GC skew和AT skew的特征（图14中C和D）。

进一步，我们对不同物种来源材料进行mDRIP-seq建库，包括大肠杆菌菌株K12（图15中A）、酵母菌株BY4741（图15中B）、拟南芥野生型Col-0幼苗（图15中C）、水稻植株9311幼苗（图15中D）、人细胞系HEK293T（图16中A）和小鼠细胞系NIH/3T3（图16中B），每个样本两个重复。结果显示，mDRIP-seq对这些样本R-loop基因组水平分布的检测和ssDRIP-seq、S1-DRIP-seq以及DRIPc-seq等其他方法公共可用数据均呈现很好的一致性（图16中C-H）。

本实例结果表明，mDRIP-seq是一项可靠、稳定、可重复的高通量R-loop检测技术，可应用于多种生物全基因组R-loop图谱的高通量绘制。

实施例13. 单链接头预连接技术应用于基因组DNA-蛋白相互作用研究构建高通量mChIP-seq流程示意图

背景

ChIP-seq（chromatin immunoprecipitation followed by high-throughputDNA sequencing）是将染色质免疫共沉淀与二代测序技术相结合所形成的一种高通量测序技术，为全基因组水平研究DNA结合蛋白位点、组蛋白修饰、核小体定位等特征提供了一种高分辨率、低噪音、高覆盖率的研究方法，是开展基因调控和表观遗传机制研究的重要手段，在细胞身份特征、发育调控、疾病研究等领域得到了广泛的应用

。

传统的ChIP-seq先通过免疫共沉淀富集靶向蛋白结合的DNA，再对富集的DNA进行建库测序，步骤较为繁琐，建库周期长，通量有限，样品投入需求量较大（∼1×10⁷），一定程度上限制了该技术的应用

。因而，研究人员一直致力于ChIP-seq流程的重构建和优化，并于近期开发了诸如iChIP/>

、Co-ChIP/>

、Mint-ChIP/>

、SLIM-ChIP/>

、RELACS/>

、STAR ChIP-seq/>

、Micro-ChIP/>

、MOWChIP-seq/>

、itChIP-seq/>

、ChIL-seq/>

、CUT&RUN/>

、CUT&Tag/>

、CoBATCH/>

、TIP-seq/>

等技术，推动了多样本、微量ChIP-seq测序技术的发展和应用。这些技术中，iChIP、Co-ChIP、Mint-ChIP、SLIM-ChIP及RELACS通过添加条形码序列对样本DNA进行标记，实现了多样本ChIP-seq建库流程。然而，要实现多样本混合，这些技术要进行首轮免疫共沉淀捕获染色质进行条形码序列标记，每个样本需要单独处理，存在建库周期长、通量有限的不足。STAR ChIP-seq、Micro-ChIP、MOWChIP-seq、ChIL-seq、itChIP-seq、CUT&RUN、CUT&Tag以及CoBATCH通过优化建库方法，一定程度上实现了微量样本甚至单细胞的建库需求。然而目前所开发的技术仍存在一些不足：（1）常规的ChIP-seq方法需要对每个样本进行免疫共沉淀再分别建库，通量有限，建库繁琐耗时；（2）要实现多样本混合免疫共沉淀，已有多样本技术先要用共同的抗体，如anti-H3，进行首轮免疫共沉淀捕获染色质再进行条形码序列标记，限制了多样本第二轮免疫共沉淀目标蛋白的类型；（3）这些技术以双链DNA为建库对象，而交联样本一般涉及高温解交联步骤，易引起双链DNA变性，降低建库覆盖度；（4）单链DNA作为中间体广泛存在基因组中，如驱动控制细胞身份基因表达的超级增强子，具有极高的转录活性，在小鼠胚胎干细胞中94%的超级增强子鉴定为含单链DNA的增强子（ssDNA-containing enhancers）/>

。针对这些单链DNA区域，若以双链方法进行接头预连接，构建多样本建库流程，可能会降低分辨率，存在信号丢失甚至建库不成功的风险（如图17中A和B所示）。因而，为解决上述问题，迫切需要开发一种新型高通量ChIP-seq技术：（1）能够对染色质DNA进行条形码预连接，多个样本可以混合一起进行免疫共沉淀，提高建库通量；（2）能够利用单链建库策略，提高建库覆盖度。

mChIP-seq流程示意图

基于现有方法进展局限性，本实施例基于前述单链接头预连接技术，构建mChIP-seq高通量测序技术，对多样本进行标记，以实现多样本同步免疫共沉淀和文库构建，应用于基因组水平DNA-蛋白相互作用图谱的高通量绘制。mChIP-seq的基本流程主要包括五个步骤（如图18所示）：

（1）利用甲醛等交联剂对样本进行固定；

（2）对固定的样本细胞进行裂解，并对染色质进行片段化；

（3）单链接头预连接技术对片段化的染色质DNA进行标记；

（4）混合所有标记的样本，根据实验设计选择一种或多种抗体进行免疫共沉淀捕获靶向蛋白位点DNA；

（5）捕获的染色质DNA结交联后按照前述反向引物扩展、连接第二接头及文库扩增的方法完成测序文库的构建、上机测序，通过条形码序列进行拆分，对各个样本进行生物信息学分析。

实施例14. mChIP-seq技术应用于酵母基因组水平组蛋白修饰图谱的绘制

主要材料和试剂

酵母菌株BY4741

splint（寡核苷酸7，SEQ ID NO：9）: 5'SpacerC12-GTCGATCGCTCCCCCC- NH₂C₆-3'，5'端SpacerC12修饰，3'端NH₂C₆修饰（图2A）；

T4 DNA ligase（Thermo Fisher Scientific, Cat:EL0011）；

dGTP（Takara, Cat:4027Q）；

ATP（Thermo Fisher Scientific,Cat:R0441）；

PEG8000（50%, RNase free）（Beyotime, Cat: R0056-2ml）；

T4 RNA Ligase Reaction Buffer（NEB, Cat:B0216L）；

Penicillin-Streptomycin（青霉素-链霉素，10,000 U/mL）（Thermo FisherScientific, Cat:15140122）

Anti-Histone H3（mono methyl K4）antibody - ChIP Grade（抗组蛋白H3K4单甲基化抗体-ChIP级别，Abcam,Cat:ab8895）；

37% Formaldehyde solution（37%甲醛溶液，Sigma-Aldrich,Cat:8187081000）；

甘氨酸（Macklin, Cat:G800883-500g）

Dynabeads™ Protein G（Dynabeads™ G蛋白，Thermo Fisher Scientific,Cat:10004D）。

方法

（1）细胞固定

过夜培养（28℃）至对数生长期的酵母细胞，在培养基中直接加入37%的甲醛使终浓度为1%，室温20 rpm晃动15分钟，加入2.5 M的甘氨酸室温反应5分钟终止交联。300 ×g离心5分钟，预冷PBS洗涤2次，25 mL每管分装至1.5 ml离心管中，液氮速冻，放-80℃冰箱备用。

（2）染色质片段化

-80℃冰箱中取出固定的酵母细胞放置冰上至解冻，加入1 mL含1×蛋白酶抑制剂FA lysis buffer（50 mM Hepes-KOH, pH 7.5, 150 mM NaCl, 2 mM EDTA, 1% Triton,0.1% sodium deoxycholate）和1×蛋白酶抑制剂悬浮细胞，转移至预冷的含500 μL 0.5mm玻璃珠的2 mL 离心管中,放入研磨中最大频率研磨3分钟，取出放置-20℃ 7分钟，之后再放入研磨机按照相同操作重复3次。研磨后悬液全部转移至1.5 mL离心管中，4℃最大转速离心15分钟。除去上清，沉淀使用400 μL含1×蛋白酶抑制剂的FAlysisbuffer轻轻吸打重悬，避免产生气泡。ME220（Covaris, 75 W, 10% Duty factor, 1000 cycles perburst, 720 s, 4℃）对染色质进行片段化。

（3）常规ChIP-seq

50 μL片段化后的染色质，加入FA lysis buffer（FA裂解缓冲液）至500 μL，加入2μg Anti-Histone H3（mono methyl K4）antibody抗体孵育过夜。第二天加入Dynabeads™Protein G孵育3小时，加入1 mL 冰上预冷的FA lysis buffer、High Salt Wash Buffer（高盐清洗缓冲液，50 mM Tris-HCl pH 7.5, 500 mM NaCl, 1 mM EDTA, 1% NP-40）、LiCl/detergent Wash Buffer（LiCl/洗涤剂清洗缓冲液，10 mM Tris-HCl pH 8.0, 250mM LiCl, 1 mM EDTA, 1% NP-40, 1% sodium deoxycholate）、TE buffer依次洗涤2次、2次、1次和1次，后加入1 mL TE buffer转移至新的离心管中，磁力架上去除上清后加入150μL Elution Buffer（洗脱液，1% SDS, 1 mM NaHCO₃）和10 μL Proteinase K（蛋白酶K），65℃解交联2小时以上，苯酚氯仿抽提进行DNA的纯化。提取的DNA直接按照Accel-NGS® 1SPlus DNA Library Kit（Swift Biosciences）文库的构建。

（4）mChIP-seq

需要基于前述单链接头预连接技术，取50 μL片段化后的染色质，在200 μL反应体系下对每个样本进行接头预连接和条形码标记。标记后的每个样本加入2 μL 0.5M的EDTA终止反应，随后合并标记的样本直接加入2 μg Anti-Histone H3（mono methyl K4）antibody抗体孵育过夜。第二天加入Dynabeads™ Protein G孵育3小时，加入1 mL 冰上预冷的FA lysis buffer、High Salt Wash Buffer（50 mM Tris-HCl pH 7.5, 500 mM NaCl,1 mM EDTA, 1% NP-40）、LiCl/detergent Wash Buffer（10 mM Tris-HCl pH 8.0, 250 mMLiCl, 1 mM EDTA, 1% NP-40, 1% sodium deoxycholate）、TE buffer依次洗涤2次、2次、1次和1次，后加入1 mL TE buffer转移至新的离心管中，磁力架上去除上清后加入150 μLElution Buffer（1% SDS, 1 mM NaHCO3）和10 μL Proteinase K，65℃解交联2小时以上，苯酚氯仿抽提进行DNA的纯化。纯化的DNA按照前述单链接头预连建库流程进行第一接头反向引物对连接产物进行延伸、延伸产物连接第二接头和文库进行扩增，完成文库的构建。

（5）数据分析和可视化处理

ChIP-seq数据使用Bowtie 2（version 2.2.5）

软件进行基因组比对，参考基因组为sacCer3；Picard tools（/>

）去除重复。

对于mChIP-seq数据，fastq-multx（version1.4.2）（https://github.com/brwnj/fastq-multx）依据read2的5'端标签序列信息进行数据的拆分，随后每个样本按照ChIP-seq相同的流程进行分析。

数据可视化方面，deepTools（version 3.5.1）

获得相应的快照图（snapshots）。deeptools中plotCorrelation进行相关性散点图的绘制。

结果

结果显示，mChIP-seq绘制的酵母H3K4me1图谱和常规ChIP-seq绘制的图谱显示了高度的一致性，相关系数不小于0.98（如图19中A和B所示）。该示例结果说明，基于接头预连接技术，保持DNA和蛋白质结合结构完整性情况下，能够对片段化的染色质DNA进行条形码标记，从而提高建库的通量。

实施例15. 单链接头预连接技术提升建库通量，降低建库成本

主要材料和试剂

人细胞系A2780、BEL7042、Calu-1、Eca109、HCT116、HEK293T、Hela、Iose80、WRL68，和小鼠细胞系line NHI/3T3

T4 DNA ligase（Thermo Fisher Scientific, Cat:EL0011）；

dGTP（Takara, Cat:4027Q）；

PEG8000（50%, RNase free）（Beyotime, Cat: R0056-2ml）；

T4 RNA Ligase Reaction Buffer（NEB, Cat:B0216L）；

TrypLE™ Express Enzyme（1×）, phenol red（Thermo Fisher Scientific,Cat:12605010）

Dynabeads™ Protein G（Thermo Fisher Scientific, Cat:10004D）

方法

（1）细胞培养

HEK293T和WRL68细胞培养在含10% FBS 和 1× penicillin-streptomycin的DMEM培养基中；Calu-1和HCT116细胞培养在含10% FBS和 1× penicillin-streptomycin的MCCOY'S 5A培养基中；Hela和NIH/3T3细胞培养在含10% FBS, 1× MEM NEAA, 1×Sodium Pyruvate, 1× Sodium Pyruvate GlutaMAX-1和1× penicillin-streptomycin的MEM培养基中；Iose80，Eca109，Bel7402和A2780细胞培养在含10% FBS和1×penicillin-streptomycin的RPMI-1640培养基中。所有细胞均培养于含5% CO₂ 37℃培养箱中，当细胞达到80%左右的汇合度时，收集细胞进行下游实验。

（2）基因组DNA的提取

收集的细胞在含0.5% SDS和0.1mg/ml蛋白酶K（TransGen Biotech#: GE201-01）的TE溶液中，37℃摇床以220 rpm速度消化4-6小时，之后按照常规的苯酚氯仿抽提方法提取基因组DNA（genomeDNA，gDNA）

（3）ssDRIP-seq文库的构建

ssDRIP-seq按照[3, 6, 39]的流程进行文库的构建。ME220（Covaris, 70 W, 20%Duty factor, 1000 cycles per burst, 130 s, at 4~20°C）超声片段化的gDNA和抗体S9.6进行DRIP，提取的核酸直接按照Accel-NGS® 1S Plus DNA Library Kit（SwiftBiosciences）文库的构建。

（4）mDRIP-seq文库的构建

对于mDRIP-seq文库的构建，首先需要基于前述单链接头预连接技术，对每个样本进行接头预连接，从而对样本进行标记。标记后的每个样本加入2μL0.5M的EDTA终止反应，随后合并标记的样本并进行苯酚氯仿抽提纯化DNA。纯化的DNA溶于TE中按照ssDRIP-seq方法和S9.6进行免疫共沉淀，富集R-loop中DNA:RNA杂合链。纯化的DNA:RNA杂合链按照前述单链接头预连建库流程进行第一接头反向引物对连接产物进行延伸、延伸产物连接第二接头和文库进行扩增，完成文库的构建。

（5）数据分析和处理

ssDRIP-seq数据使用Bowtie 2（version 2.2.5）

软件进行基因组比对（BW25113genome for E. coli, sacCer3 genome for yeast, GRCh38 genome for humans, mm10genome for mice, TAIR10 genome for Arabidopsis, MSU version 7.0 for rice）；Picard tools（/>

）去除重复；为了获得链特异性的BAM文件，samtools/>

进行链拆分；MACS2 />

对富集区域进行峰的鉴定。

数据可视化方面，deepTools（version 3.5.1）

获得相应的snapshots。

结果

为阐述mDRIP-seq的优势，我们提取了10种细胞系（人细胞系A2780、BEL7042、Calu-1、Eca109、HCT116、HEK293T、Hela、Iose80、WRL68和小鼠细胞系NHI/3T3）的基因组DNA，每个细胞系两个生物学重复作为一组进行mDRIP-seq建库测序，并且做了三次重复实验。因而，三个文库共可获得60个样本测序数据（如图20中A和图22中A所示）。拆分数据显示，绝大部分测序reads（大于95%）拆分到样本中（图20中A）。通过控制gDNA的投入量，各个样本获得了相同数量级的reads数，并且显示了非常高的比对率（at least 86.73%, mean95.11%）（图20中B和C），表明通过mDRIP-seq构建文库的我们获得数据质量是非常高的。同时HEK293T和NIH/3T3的数据仍未显示明显的交叉污染（图20中D），并且 HEK293T和NIH/3T3和相对应的ssDRIP-seq数据显示了非常高的相关性（图21中A和B）。同时，PCA分析显示同一细胞系聚集在一起（图22中B）。这些结果表明，mDRIP-seq在更多样本量的情况下仍能保持很好的可靠性、稳定性和可重复。

多样本标记后可以混合进行同步DRIP和文库构建，因而，mDRIP-seq和传统方法相比能够显著增加建库通量，提高建库效率。如本例所述的20个样本作为一组进行混合，mDRIP-seq和ssDRIP-seq相比，能够大幅减少操作时长（hands-on times），每个样本大概减少了6倍左右（图22中C）。此外，mDRIP-seq构建一个文库的成本和ssDRIP-seq构建一个文库的成本大体相当，因而mDRIP-seq平均到一个样本的成本和ssDRIP-seq相比就会大幅减少，每个样本能减少约7倍左右的建库成本（图22中D，不包括样本准备的成本）。

该示例结果表明，通过单链接头预连接技术，对样本进行标记，实现多样本在同一管中进行免疫共沉淀和文库构建，可获得高质量的数据，同时能够增加建库通量、降低建库成本和操作时长。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：利用上述单链接头预连接方法、高通量测序文库的建库方法及试剂盒，通过延伸DNA，形成单链结构，结合夹板结构，对不同形式的DNA(单链、双链及杂合等结构)进行接头预连接，接头中包含了条形码区域，条形码可以识别不同的样本，因而标记后的样本可以混合一起进行后续的建库工作，能够实现对于多种形态的DNA，尤其是DNA-RNA杂合链、或基因组水平与蛋白质相互作用的DNA等DNA的高通量建库，具有建库通量高、建库成本低的优点，能够缩短建库周期，也能够消减每个样本分别建库过程中因试剂、仪器、操作等引起的批次效应。

本申请中涉及的参考文献如下：

1.Cusanovich, D.A. et al. Multiplex single cell profiling ofchromatin accessibility by combinatorial cellular indexing. Science348, 910-914（2015）.

2.Kaya-Okur, H.S. et al. CUT&Tag for efficient epigenomic profilingof small samples and single cells. Nat Commun10, 1930（2019）.

3.Wang, Q. et al. CoBATCH for High-Throughput Single-Cell EpigenomicProfiling. Mol Cell76, 206-216 e207（2019）.

4.Xiong, H., Luo, Y., Wang, Q., Yu, X. & He, A. Single-cell jointdetection of chromatin occupancy and transcriptome enables higher-dimensionalepigenomic reconstructions. Nat Methods18, 652-660（2021）.

5.Lara-Astiaso, D. et al. Immunogenetics. Chromatin state dynamicsduring blood formation. Science345, 943-949（2014）.

6.Weiner, A. et al. Co-ChIP enables genome-wide mapping of histonemark co-occurrence at single-molecule resolution. Nat Biotechnol34, 953-961（2016）.

7.Ginno, P.A., Lott, P.L., Christensen, H.C., Korf, I. & Chedin, F.R-loop formation is a distinctive characteristic of unmethylated human CpGisland promoters. Mol Cell45, 814-825（2012）.

8.Sanz, L.A. et al. Prevalent, Dynamic, and Conserved R-LoopStructures Associate with Specific Epigenomic Signatures in Mammals. MolCell63, 167-178（2016）.

9.Xu, W. et al. The R-loop is a common chromatin feature of theArabidopsis genome. Nat Plants3, 704-714（2017）.

10.Chen, L. et al. R-ChIP Using Inactive RNase H Reveals DynamicCoupling of R-loops with Transcriptional Pausing at Gene Promoters. MolCell68, 745-757 e745（2017）.

11.Nadel, J. et al. RNA:DNA hybrids in the human genome havedistinctive nucleotide characteristics, chromatin composition, andtranscriptional relationships. Epigenetics Chromatin8, 46（2015）.

12.Chen, P.B., Chen, H.V., Acharya, D., Rando, O.J. & Fazzio, T.G. Rloops regulate promoter-proximal chromatin architecture and cellulardifferentiation. Nat Struct Mol Biol22, 999-1007（2015）.

13.Wahba, L., Costantino, L., Tan, F.J., Zimmer, A. & Koshland, D.S1-DRIP-seq identifies high expression and polyA tracts as major contributorsto R-loop formation. Genes Dev30, 1327-1338（2016）.

14.Dumelie, J.G. & Jaffrey, S.R. Defining the location of promoter-associated R-loops at near-nucleotide resolution using bisDRIP-seq. Elife6（2017）.

15.Tan-Wong, S.M., Dhir, S. & Proudfoot, N.J. R-Loops PromoteAntisense Transcription across the Mammalian Genome. Mol Cell76, 600-616 e606（2019）.

16.Yan, Q., Shields, E.J., Bonasio, R. & Sarma, K. Mapping Native R-Loops Genome-wide Using a Targeted Nuclease Approach. Cell Rep29, 1369-1380e1365（2019）.

17.Crossley, M.P., Bocek, M.J., Hamperl, S., Swigut, T. & Cimprich,K.A. qDRIP: a method to quantitatively assess RNA-DNA hybrid formationgenome-wide. Nucleic Acids Res48, e84（2020）.

18.Wang, K. et al. Genomic profiling of native R loops with a DNA-RNAhybrid recognition sensor. Sci Adv7（2021）.

19.Xu, W. et al. The R-Loop Atlas of Arabidopsis Development andResponses to Environmental Stimuli. Plant Cell32, 888-903（2020）.

20.Xu, W. et al. Quantitative, Convenient, and Efficient Genome-WideR-Loop Profiling by ssDRIP-Seq in Multiple Organisms. Methods Mol Biol2528,445-464（2022）.

21.Li, H. et al. The Sequence Alignment/Map format and SAMtools.Bioinformatics25, 2078-2079（2009）.

22.Zhang, Y. et al. Model-based analysis of ChIP-Seq（MACS）. GenomeBiol9, R137（2008）.

23.Ramirez, F. et al. deepTools2: a next generation web server fordeep-sequencing data analysis. Nucleic Acids Res44, W160-165（2016）.

24.Robinson, J.T. et al. Integrative genomics viewer. NatBiotechnol29, 24-26（2011）.

25.Yan, P. et al. Genome-wide R-loop Landscapes during CellDifferentiation and Reprogramming. Cell Rep32, 107870（2020）.

26.Gartlgruber, M. et al. Super enhancers define regulatory subtypesand cell identity in neuroblastoma. Nat Cancer2, 114-128（2021）.

27.Hnisz, D. et al. Super-enhancers in the control of cell identityand disease. Cell155, 934-947（2013）.

28.Li, M. et al. Core transcription regulatory circuitry orchestratescorneal epithelial homeostasis. Nat Commun12, 420（2021）.

29.Furey, T.S. ChIP-seq and beyond: new and improved methodologies todetect and characterize protein-DNA interactions. Nat Rev Genet13, 840-852（2012）.

30.van Galen, P. et al. A Multiplexed System for QuantitativeComparisons of Chromatin Landscapes. Mol Cell61, 170-180（2016）.

31.Gutin, J. et al. Fine-Resolution Mapping of TF Binding andChromatin Interactions. Cell Rep22, 2797-2807（2018）.

32.Arrigoni, L. et al. RELACS nuclei barcoding enables high-throughput ChIP-seq. Commun Biol1, 214（2018）.

33.Zhang, B. et al. Allelic reprogramming of the histone modificationH3K4me3 in early mammalian development. Nature537, 553-557（2016）.

34.Dahl, J.A. et al. Broad histone H3K4me3 domains in mouse oocytesmodulate maternal-to-zygotic transition. Nature537, 548-552（2016）.

35.Zhu, B. et al. MOWChIP-seq for low-input and multiplexed profilingof genome-wide histone modifications. Nat Protoc14, 3366-3394（2019）.

36.Ai, S. et al. Profiling chromatin states using single-cell itChIP-seq. Nat Cell Biol21, 1164-1172（2019）.

37.Harada, A. et al. A chromatin integration labelling method enablesepigenomic profiling with lower input. Nat Cell Biol21, 287-296（2019）.

38.Skene, P.J. & Henikoff, S. An efficient targeted nuclease strategyfor high-resolution mapping of DNA binding sites. Elife6（2017）.

39.Bartlett, D.A. et al. High-throughput single-cell epigenomicprofiling by targeted insertion of promoters（TIP-seq）. J Cell Biol220（2021）.

40.Wu, T., Lyu, R., You, Q. & He, C. Kethoxal-assisted single-stranded DNA sequencing captures global transcription dynamics and enhanceractivity in situ. Nat Methods17, 515-523（2020）.

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种单链接头预连接方法，其特征在于，所述单链接头预连接方法包括：

a）利用末端转移酶将样本DNA的3'端进行延伸形成外延的单链DNA结构，获得延伸DNA；

b）在夹板的作用下，将所述延伸DNA和单链接头进行连接，获得预连接缺刻DNA，所述单链DNA结构3'端和所述单链接头的5'端相邻并存在缺刻；

c）利用DNA连接酶以磷酸二酯键连接所述缺刻，获得单链接头预连接DNA；

其中，所述单链接头从5'端至3'端依次包括：夹板互补区域、条形码区域和测序接头区域；

所述条形码区域为4-12个碱基组合的序列；

所述夹板包括5'端的单链接头结合区和3'端的目标片段结合区；

所述单链接头结合区与所述夹板互补区域互补配对；

所述目标片段结合区与所述外延的单链DNA结构互补配对。

2.根据权利要求1所述的单链接头预连接方法，其特征在于，在所述单链接头的所述夹板互补区域和所述条形码区域之间还包括唯一标识符区域。

3.根据权利要求1所述的单链接头预连接方法，其特征在于，所述测序接头区域的3'端含有3'封闭修饰。

4.根据权利要求1所述的单链接头预连接方法，其特征在于，所述目标片段结合区包括（AAAA）_n、（CCCC）_n、（GGGG）_n、（TTTT）_n、（RRRR）_n、（YYYY）_n、（KKKK）_n、（MMMM）_n、（SSSS）_n、（WWWW）_n、（BBBB）_n、（DDDD）_n、（HHHH）_n、（VVVV）_n或（NNNN）_n，其中n表示碱基个数，n为4-8中任意整数；大写字母表示不同脱氧核苷酸碱基类型或组合，其中A：腺嘌呤；T：胸腺嘧啶；C：胞嘧啶；G：鸟嘌呤；Y：胞嘧啶或胸腺嘧啶；R：腺嘌呤或鸟嘌呤；M：腺嘌呤或胞嘧啶；K：鸟嘌呤或胸腺嘧啶；W：腺嘌呤或胸腺嘧啶；S：胞嘧啶或鸟嘌呤；V：腺嘌呤、胞嘧啶或鸟嘌呤；H：腺嘌呤、胞嘧啶或胸腺嘧啶；D：腺嘌呤、鸟嘌呤或胸腺嘧啶；B：胞嘧啶、鸟嘌呤或胸腺嘧啶；N：腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶。

5.根据权利要求1所述的单链接头预连接方法，其特征在于，所述a）、所述b）和所述c）能够分步或同时进行，获得所述单链接头预连接DNA。

6.根据权利要求1所述的单链接头预连接方法，其特征在于，样本DNA包括双链DNA、单链DNA或DNA-RNA杂合链中的一种或多种。

7.根据权利要求1所述的单链接头预连接方法，其特征在于，将所述样本DNA、所述夹板、所述DNA连接酶和所述单链接头混合于T4 RNA连接酶缓冲液或T4 DNA连接酶缓冲液中，形成连接体系。

8.根据权利要求7所述的单链接头预连接方法，其特征在于，所述连接体系中含有聚乙二醇；所述聚乙二醇包括PEG2000、PEG4000、PEG6000或PEG8000中的一种或多种；所述聚乙二醇在所述连接体系中的质量浓度为5%-30%。

9.根据权利要求1所述的单链接头预连接方法，其特征在于，脱氧核糖核苷酸三磷酸包括脱氧腺苷5'-三磷酸、脱氧鸟苷5'-三磷酸、脱氧胞苷5'-三磷酸和脱氧胸腺苷5'-三磷酸其中的一种、两种、三种或四种，在所述单链接头预连接方法中，所述末端转移酶催化各所述脱氧核糖核苷酸三磷酸结合至所述样本DNA的3'端羟基，各所述脱氧核糖核苷酸三磷酸依次结合形成所述单链DNA结构。

10.一种高通量二代测序文库的建库方法，其特征在于，所述建库方法包括：

利用权利要求1-9中任一项所述的单链接头预连接方法获得所述单链接头预连接DNA；

利用能够与所述单链接头特异性结合的引物对所述单链接头预连接DNA进行扩增，得到连接3'端接头的双链DNA产物；

对所述连接3'端接头的双链DNA产物进行5'端接头连接，得到双端接头产物；

对所述双端接头产物进行扩增，获得所述高通量二代测序文库。

11.根据权利要求10所述的建库方法，其特征在于，所述样本DNA为基因组DNA中的R-loop，所述建库方法包括：

片段化处理不同样本的所述基因组DNA，获得各所述基因组对应的片段化DNA；

利用所述单链接头预连接方法，将携带不同所述条形码区域的单链接头分别与各所述基因组对应的所述片段化DNA连接，获得不同的所述单链接头预连接DNA；

混合不同的所述单链接头预连接DNA，进行免疫共沉淀，获得单链接头连接R-loopDNA，所述单链接头连接R-loop DNA为来源于所述R-loop的、连接有所述单链接头的DNA-RNA杂合链；

利用能够与所述单链接头特异性结合的引物，对所述单链接头连接R-loop DNA进行扩增，获得所述R-loop的测序文库。

12.根据权利要求10所述的建库方法，其特征在于，所述样本DNA为细胞的染色质中靶向蛋白的DNA，所述建库方法包括：

片段化处理不同的所述染色质，获得各所述染色质对应的片段化DNA；

利用所述单链接头预连接方法，将携带不同所述条形码区域的单链接头分别与各所述染色质对应的片段化DNA连接，获得不同的所述单链接头预连接DNA；

混合不同的所述单链接头预连接DNA，利用抗体进行免疫共沉淀，获得单链接头连接靶向DNA，所述单链接头连接靶向DNA为连接有所述单链接头的所述靶向蛋白的DNA，

利用能够与所述单链接头特异性结合的引物，对所述单链接头连接靶向DNA进行扩增，获得所述靶向蛋白的DNA的测序文库。

13.根据权利要求12所述的建库方法，其特征在于，不同的所述染色质通过如下方法获得：

利用交联剂固定不同的所述细胞，对固定的所述细胞进行裂解，获得不同的所述染色质；

所述交联剂包括甲醛；

所述裂解包括利用化学裂解、机械裂解或酶裂解。

14.一种单链接头试剂盒，其特征在于，所述单链接头试剂盒包括单链接头、夹板和末端转移酶；

所述单链接头从5'端至3'端依次包括：夹板互补区域、条形码区域和测序接头区域；

所述条形码区域为4-12个碱基的组合；

所述单链接头结合区能够和所述夹板互补区域进行特异性结合；

所述目标片段结合区能够和待连接的目标片段进行特异性结合，从而将所述夹板与所述目标片段连接。

15.根据权利要求14所述的单链接头试剂盒，其特征在于，在所述单链接头的所述夹板互补区域和所述条形码区域之间还包括唯一标识符区域。

16.根据权利要求14所述的单链接头试剂盒，其特征在于，所述测序接头区域的3'端含有3'封闭修饰。

17.根据权利要求14所述的单链接头试剂盒，其特征在于，所述单链接头试剂盒还包括连接缓冲液，所述连接缓冲液中含有DNA连接酶和/或聚乙二醇；

所述连接缓冲液包括T4 RNA连接酶缓冲液或T4 DNA连接酶缓冲液；

所述聚乙二醇包括PEG2000、PEG4000、PEG6000或PEG8000中的一种或多种；

所述聚乙二醇的质量浓度为5%-30%。

18.根据权利要求14所述的单链接头试剂盒，其特征在于，所述目标片段结合区包括（AAAA）_n、（CCCC）_n、（GGGG）_n、（TTTT）_n、（RRRR）_n、（YYYY）_n、（KKKK）_n、（MMMM）_n、（SSSS）_n、（WWWW）_n、（BBBB）_n、（DDDD）_n、（HHHH）_n、（VVVV）_n或（NNNN）_n，其中n表示碱基个数，n为4-8中任意整数；大写字母表示不同脱氧核苷酸碱基类型或组合，其中A：腺嘌呤；T：胸腺嘧啶；C：胞嘧啶；G：鸟嘌呤；Y：胞嘧啶或胸腺嘧啶；R：腺嘌呤或鸟嘌呤；M：腺嘌呤或胞嘧啶；K：鸟嘌呤或胸腺嘧啶；W：腺嘌呤或胸腺嘧啶；S：胞嘧啶或鸟嘌呤；V：腺嘌呤、胞嘧啶或鸟嘌呤；H：腺嘌呤、胞嘧啶或胸腺嘧啶；D：腺嘌呤、鸟嘌呤或胸腺嘧啶；B：胞嘧啶、鸟嘌呤或胸腺嘧啶；N：腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶。